El lento camino de la autocorrección de la ciencia : Revista Pesquisa Fapesp

En un trabajo publicado en febrero en la plataforma MetaArXiv, un grupo de investigadores de Estados Unidos, el Reino Unido, Alemania y los Países Bajos evaluó lo que sucedió con cuatro influyentes artículos científicos del área la psicología luego de que sus conclusiones fueran cuestionadas mediante la realización de nuevos experimentos. Pese al daño a su credibilidad, esos papers siguieron siendo citados en otros manuscritos a un ritmo similar al que traía previamente y, en la mayoría de los casos, simplemente se ignoró el hecho de que no se los haya podido confirmar. Es cierto que se registró un cierto descenso en las menciones favorables a dichos estudios, y un leve aumento de las citas negativas. De los artículos que aludían a esos trabajos y reconocían que estaban en entredicho, tan solo la mitad presentó argumentos o evidencias como para avalar las conclusiones originales.

El análisis de los cuatro artículos sugirió que los denominados estudios de replicación, que se llevan a cabo para confirmar hallazgos y son considerados esenciales para exponer equívocos, puede que no activen inmediatamente los mecanismos de autocorrección de la ciencia. El trabajo divulgado en MetaArXiv es un preprint, es decir, un manuscrito que aún no ha sido sometido a revisión, y su coordinación estuvo a cargo del epidemiólogo John Ioannidis, de la Universidad Stanford, en Estados Unidos, un experto en el campo de la integridad científica.

La elección de los papers del área de la psicología no fue casual. En la última década, toda una seguidilla de artículos científicos de esta disciplina cayó en descrédito porque sus resultados no pudieron confirmarse en experimentos ulteriores. Esto generó lo que se acordó en definir como una “crisis de reproducibilidad de la psicología”. Entre las propuestas para hacer frente a este problema hubo un esfuerzo tendiente a someter a un escrutinio más riguroso a los estudios de gran repercusión en el área, tales como los cuatro artículos evaluados por Ioannidis.

Uno de esos trabajos fue publicado en 1988 por Fritz Strack, actualmente profesor emérito de la Universidad Julius Maximilians de Wurzburgo, en Alemania. Presuntamente, sus resultados habrían confirmado una hipótesis postulada por el filósofo y psicólogo estadounidense William James (1842-1910), que sostiene que la expresión facial de una persona afecta directamente a su estado emocional. Él les pidió a los participantes del estudio que sujetaran un bolígrafo con la boca, de manera tal que forzaran dos tipos diferentes de expresión: una sonrisa o el entrecejo fruncido. Tras ello, hizo que los individuos vieran dibujos animados. Dedujo que los participantes obligados a sonreír consideraban a los dibujos animados más graciosos que aquellos que mantenían una expresión ceñuda.

En 2016, el artículo fue evaluado nuevamente en el marco de la iniciativa Registered Replication Reports, de la Association for Psychological Science, que recurrió a los mismos dibujos animados, pero no logró reproducir los resultados de Strack. El psicólogo alemán sostiene que su experimento es fidedigno y alega que, en el estudio de confirmación, los voluntarios sabían que estaban siendo observados y filmados, cosa que, según afirma, pudo haber alterado el comportamiento en comparación con lo que se registró en 1988.

En la década pasada, varios artículos científicos del campo de la psicología cayeron en descrédito luego de ser refutados por otros experimentos

Otro trabajo que figura en la lista de los controvertidos es un artículo de 1998 del psicólogo social estadounidense Roy Baumeister, que señalaba los límites de la capacidad de autocontrol de los individuos. En sus experimentos, Baumeister y sus colaboradores se propusieron demostrar que las personas que lograban resistir a la tentación de comer chocolate tenían dificultades para realizar tareas complejas inmediatamente después, como montar un rompecabezas. De igual manera, los individuos compelidos a pronunciar discursos defendiendo ideas contrarias a las propias sufrirían para realizar esfuerzos exigidos a continuación. Esos hallazgos habrían corroborado la idea de que se produce un “agotamiento del yo” cuando se exige un profundo autocontrol. Dicho efecto fue revisado en un estudio de 2016, en el que intervinieron 2.141 participantes, el cual no arrojó evidencias sobre el referido agotamiento del yo. Pero esto, según el análisis de Ioannidis, no tuvo ningún impacto sobre las tendencias de citas del paper original.

Los otros dos artículos aludían a los efectos de la exposición de los individuos a ciertas situaciones y cómo afectaba eso a la respuesta a estímulos ulteriores. En 2013, Eugene Caruso, de la Escuela de Administración de la Universidad de California en Los Ángeles (EE. UU.), publicó un artículo en el que postulaba que la exposición de las personas al dinero incidía sobre la manera en que estos sostenían los principios del libre mercado. De manera similar, Travis Carter, de la Universidad de Chicago, arribó a la conclusión de que la exposición de la gente a la imagen de la bandera en Estados Unidos determinaba comportamientos políticos conservadores. Ambos estudios fueron revaluados por una comisión denominada Many Labs, que utilizó la metodología original y la aplicó en una cantidad mayor de individuos. Los resultados no pudieron confirmarse.

Ioannidis plantea la hipótesis de que parte de los autores podrían haber citado esos estudios simplemente porque no sabían que estaban en entredicho. Esto ya ha ocurrido incluso con papers descalificados por errores o fraudes que han sido retractados y aun así son citados por investigadores incautos. La discrepancia entre los resultados originales y los de replicación no constituyen un problema nuevo. En 2012, los psicólogos Joshua Hartshorne y Adena Schachner, de la Universidad Harvard, propusieron en un artículo que salió publicado en la revista Frontiers in Computational Neuroscience la creación de bancos de datos tendiente a vincular los estudios originales con los trabajos que intentaron reproducir sus hallazgos.

El médico Olavo Amaral, docente del Instituto de Bioquímica Médica de la Universidad Federal de Río de Janeiro (UFRJ), llama la atención sobre otro aspecto: la posibilidad de que el análisis de los investigadores incorpore un sesgo confirmatorio, eligiendo argumentos y evidencias que corroboren sus postulados. “No es raro que se citen aquellos trabajos que interesan para probar un punto en lugar de intentar llevar a cabo una revisión imparcial de las evidencias existentes. Quizá sea por eso que en la ciencia existan consensos que se bifurcan”, dice Amaral. El investigador dirige la Iniciativa Brasileña de Reproducibilidad, proyecto financiado por el Instituto Serrapilheira que se propone repetir un centenar de experimentos consignados en artículos brasileños del área biomédica para constatar hasta qué punto es posible reproducir los resultados publicados (lea en Pesquisa FAPESP, edición nº 267).

Un trabajo en el cual se analizó este problema en el ámbito de la medicina fue coordinado en 2007 por el propio Ioannidis, y posteriormente se lo publicó en el Journal of the American Medical Association (Jama). En el mismo, y después de que esos resultados fueron refutados por ensayos clínicos aleatorios, se cotejaron las referencias a estudios observacionales que apuntaban los beneficios cardíacos de la vitamina E, del betacaroteno contra el cáncer y del estrógeno contra el alzhéimer. Se constató que, luego de su impugnación, hubo una disminución muy lenta en la frecuencia de citas de los estudios observacionales y, de todos modos, un segmento de los investigadores siguió citando favorablemente los resultados desmentidos.

Republicar

Republish