Imprimir Republish

BUENAS PRÁCTICAS

Dudas estadísticas

Un software que reproduce cálculos de artículos y detecta errores moviliza a la comunidad científica del área de la psicología

Daniel AlmeidaEn agosto de 2016, se realizó una revisión mediante un software capaz de detectar inconsistencias estadísticas en un conjunto de alrededor de 50 mil artículos científicos del campo de la psicología. El programa, desarrollado por investigadores de la Universidad de Tilburg, en Holanda y bautizado con el nombre de statcheck, reproduce cálculos y detecta si los resultados son robustos y se corresponden con lo que está publicado en el manuscrito. En la mitad de los papers se detectó algún tipo de problema, desde errores de tipeo y simples redondeos hasta resultados erróneos que potencialmente podrían comprometer las conclusiones de los estudios. Los hallazgos surgidos de esa gigantesca comprobación fueron comunicados de manera automática mediante un correo electrónico a los autores de cada artículo y también divulgados en  PubPeer, una plataforma online en la que cualquier usuario puede escribir comentarios sobre papers ya publicados señalando errores eventuales, en un tipo de análisis por pares que se realiza en forma posterior a la divulgación del artículo.

El carácter de esta auditoría es inédito, tanto por haber sido realizada por computadora, como por el volumen de datos cotejados, donde todos los investigadores en psicología que han publicado papers en los últimos 20 años pasaron por el tamiz del statcheck. La difusión de los resultados provocó ondas de choque. El 20 de octubre, la Sociedad de Psicología de Alemania publicó una declaración en reclamo por la forma en que se hizo la comunicación de los resultados. Según el texto, muchos investigadores se sintieron molestos por quedar expuestos sin haber tenido la posibilidad de defenderse. “Varios colegas están profundamente preocupados por el hecho de que, obviamente, resulta muy difícil remover un comentario de PubPeer luego de que la ‘detección’ de un error por el statcheck revelara un falso positivo”, consta en el texto divulgado.

En un tono más crispado, Susan Fiske, docente de la Universidad de Princeton y expresidente de la Asociación de Ciencias Psicológicas estadounidense calificó como “una nueva forma de acoso” al trabajo “policial” que averigua  datos de investigaciones por iniciativa propia. “Me sentí algo amedrentado y expuesto”, le manifestó el psicólogo alemán Mathias Kauff al periódico británico The Guardian, quien recibió un e-mail del statcheck avisándole que había inconsistencias en un artículo que escribió en 2013 sobre multiculturalismo y prejuicio, publicado en el Personality and Social Psychology Bulletin. Kauff sostiene que los errores eran fruto de redondeos que no comprometían las conclusiones.

Muchos artículos del área de la psicología emplean test estadísticos modelo cuyos resultados deben investigarse. El statcheck identifica e inspecciona los test que calculan los valores de p, una medida que representa la probabilidad de que el efecto observado se deba al azar y no a los factores en estudio. Un valor de p menor o igual a 0,05 se utiliza frecuentemente como un indicador de significación estadística, puesto que sugiere resultados firmes.

De hecho, existen evidencias de que al software aún le falta desarrollo y presupone problemas que no llegan a inferir errores estadísticos. En un artículo depositado en el repositorio ArXiv, Thomas Schmidt, profesor de psicología experimental de la Universidad de Kaiserlautern, en Alemania, criticó la calidad del análisis que efectúa el statcheck en dos artículos de su autoría. Según Schmidt, el software detectó 35 resultados estadísticos potencialmente incorrectos, pero tan sólo cinco de ellos presentaban incongruencias que, de acuerdo con el autor, no incidían en los resultados finales.

Reproducción Chris Hartgerink, el estudiante de doctorado que revisó papers de psicología con el statcheckReproducción

La metodología empleada por el software ya se conocía desde 2015, cuando se publicó un artículo sobre el tema en el sitio web de la revista Behavior Research Methods, firmado por la estudiante de doctorado Michèle Nuijten junto a colegas del Centro de Metainvestigación de la Escuela de Ciencias Sociales y del Comportamiento de la Universidad de Tilburg. En el paper, el grupo reveló que la mitad de los 16.695 artículos analizados por el software presentaron algún tipo de inconsistencia en sus análisis estadísticos y el 12% de ellos ofrecían conclusiones comprometidas por errores. “El statcheck puede ser una herramienta de ayuda para la revisión por pares. La revista Psychological Science, por ejemplo, adoptó el software para detectar inconsistencias estadísticas en los manuscritos que recibe”, declaró Nuijten a Pesquisa FAPESP.

El proyecto para analizar los 50 mil artículos y tornar públicos los resultados en PubPeer fue del estudiante de doctorado Chris Hartgerink, de 25 años. Según éste, la intención fue generar beneficios inmediatos para el campo de la psicología que no se lograrían si se divulgaran solamente los resultados generales. El hecho de que también detecte falsos positivos y errores irrelevantes, dijo el investigador, no compromete ese objetivo. Ahora, Hartgerink y el profesor Marcel van Assen intentan desarrollar otro tipo de software capaz de detectar si un artículo científico contiene datos falsificados. Para evaluar la eficiencia del método, el dúo les solicitó a colegas que envíen copias de sus papers con datos alterados deliberadamente, los cuales están siendo evaluados.

También hay, entre los investigadores de psicología, quienes consideran al statcheck una herramienta útil para mejorar la calidad de las publicaciones científicas. La investigadora Simine Vazire, del Departamento de Psicología de la Universidad de California en Davis, anticipa que los autores de artículos del área serán aún más cuidadosos con sus análisis estadísticos ahora que saben de la existencia de un programa capaza de identificar descuidos, errores y fraudes.

La Universidad de Tilburg, donde se desarrolló el programa, fue el escenario de un escándalo de mala conducta científica. En el mes de septiembre de 2011, la institución cesanteó a uno de sus investigadores más productivos, el profesor de psicología social Diederik Stapel, acusado de falsificar más de 30 artículos científicos a lo largo de ocho años, luego de que una averiguación probara que falseaba datos, defraudaba a coautores e incluso amenazaba a quienes desconfiaran de él (lea en Pesquisa FAPESP, edición nº 190).

Chris Hartgerink fue alumno de Stapel durante su carrera y tenía al profesor como una especie de mentor, siendo incluso su asistente de investigación. Por entonces, quedó desconcertado. “Era un referente inspirador y fue él quien me entusiasmó para dedicarme a la investigación científica”, declaró al periódico The Guardian. La amarga experiencia de ese escándalo impulsó a una parte del grupo de científicos que investigó sus fraudes a montar el Centro de Metainvestigación, cuya incumbencia es el estudio de la mala conducta científica. Hartgerink se sumó al grupo en 2013, en su proyecto de doctorado sobre métodos para detectar la falsificación de datos de investigación.

Republicar