Imprimir Republish

Buenas prácticas

Un algoritmo para evaluar la credibilidad de estudios científicos

El Pentágono desarrollará una herramienta para predecir si los resultados de investigaciones en ciencias sociales y del comportamiento son fidedignos

Nelson Provazi

El Departamento de Defensa (DoD) de Estados unidos invertirá 7,6 millones de dólares en el desarrollo de un sistema de inteligencia artificial capaz de evaluar la credibilidad de estudios en ciencias sociales y del comportamiento. Ese programa, bautizado con el nombre de Score, una sigla que en inglés significa Sistematización de la Confianza en Evidencias y en Investigación Abierta, tendrá una duración de tres años. La meta del Pentágono consiste en la creación de una herramienta automatizada que le asigne una puntuación a los resultados de las investigaciones científicas en disciplinas tales como psicología, antropología y sociología, de acuerdo con un grado de confianza previamente estipulado. Esa clasificación apunta a orientar a los usuarios de informaciones científicas con respecto al nivel de incertidumbre de las conclusiones presentadas.

Según el antropólogo Adam Russell, quien se desempeña como coordinador de la iniciativa, el Pentágono aprovecha a menudo las evidencias recopiladas por sociólogos y psicólogos para elaborar planes relacionados con ciertos retos que se le plantean a la seguridad nacional, construir modelos que involucran sistemas sociales humanos y encauzar inversiones. “Con todo, ciertos trabajos empíricos recientes y meta análisis revelan que la capacidad de reproducir o replicar esos resultados en forma independiente varía de manera dramática”, escribió Russell, que ocupa el cargo de gerente de programas de la Darpa, la agencia de investigaciones del Pentágono. El científico se refiere a lo que se denomina “crisis de reproducibilidad”, una sucesión de casos de artículos científicos, sobre todo en áreas tales como la medicina, ciencias de la vida y psicología, que cayeron en descrédito porque sus resultados no pudieron confirmarse en experimentos ulteriores. Uno de los escándalos tuvo como protagonista a Diederick Stapel, docente de psicología social en la Universidad de Tilburg, en Holanda, quien tuvo 30 artículos suyos retractados por manipulación de datos. Hace tres años, una colaboración internacional para analizar estudios de psicología experimental solo pudo reproducir los resultados obtenidos en 36 de los 100 artículos evaluados.

El mes pasado, la Darpa anunció que el programa contará con la colaboración del Centro para la Ciencia Abierta (COS, en inglés), una organización no gubernamental vinculada a la Universidad de Virginia que tiene experiencia en replicación de experimentos científicos. El COS se hizo conocido porque entre 2013 y 2018 comandó la Iniciativa de Reproductibilidad, un esfuerzo para evaluar si 50 medicamentos potenciales contra el cáncer, descritos en artículos científicos, tenían alguna posibilidad de llegar a las farmacias. “Los análisis sobre la credibilidad de las investigaciones científicas pueden ayudar a los científicos a seleccionar objetos de investigación, a las agencias, en la toma de decisiones al respecto de qué financiar y a los formuladores de políticas públicas a elegir las mejores evidencias”, dijo el biólogo Tim Errington, investigador del COS.

El objetivo no consiste en sustituir al hombre por máquinas, sino en combinar el trabajo ambos, dice el antropólogo Adam Russell

El programa Score estará dividido en cuatro fases. En primera instancia se montará un banco de datos con los resultados de alrededor de 30 mil artículos científicos, que también acopiará evidencias extraídas de los propios papers e informaciones de otras fuentes, tales como la cantidad de citas recibidas por cada trabajo, si sus datos primarios se encuentran disponibles públicamente y si la investigación fue previamente registrada, una garantía de que no se alteró la hipótesis a testear durante el desarrollo del experimento. Esta etapa contará con la colaboración de investigadores de las universidades de Siracusa y de Pensilvania. A continuación, se seleccionarán 3 mil de esos artículos que serán analizados exhaustivamente por expertos, atribuyéndole a cada uno una puntuación conforme a la posibilidad aparente de que sus resultados puedan replicarse.

La idea es prestarle especial atención a los parámetros que se relacionan con la calidad de los resultados, tales como el tamaño de las muestras, eventuales conflictos de intereses, reputación del autor y de su institución madre, entre otros. Una vez hecho eso, los procedimientos utilizados por los expertos para puntuar a cada artículo serán analizados por científicos de la computación y servirán como base para la creación de algoritmos que reproduzcan en forma automática el método adoptado. Finalmente, equipos de investigadores intentarán reproducir los experimentos de esos 3 mil artículos con el objetivo de evaluar si el algoritmo es capaz de predecir si son o no replicables. “La propuesta no se reduce a sustituir hombres por máquinas, sino a encontrar la mejor manera de combinar el trabajo de ambos”, le dijo Russell a la revista Nature.

Naturalmente, existen riesgos de fracaso. La Iniciativa de Reproductibilidad liderada por el COS movilizó a decenas de equipos científicos y acabó generando resultados limitados. Las dificultades para poder reunir las condiciones apropiadas motivaron que el programa fuera cancelado luego de analizar menos de la mitad de los 50 estudios previstos. De cualquier manera, de una tanda inicial de 10 estudios que se analizaron, tan solo cinco pudieron considerarse fidedignos y con el resto se arribó a resultados inconclusos o negativos. Adam Russell, el coordinador del Score, tiene experiencia en proyectos con ese tipo de complejidad. Antes de trabajar en el DoD, fue administrador de programas en Iarpa, una agencia vinculada a la oficina del director nacional de inteligencia de Estados Unidos, especializada en proyectos de alto riesgo involucrando innovaciones. Este organismo financia investigaciones en empresas y universidades que involucran a expertos en matemática, ciencias de la computación, neurociencia y psicología cognitiva, entre otras áreas.

Para el psicólogo Brian Nosek, docente de la Universidad de Virginia y líder del COS, existe la posibilidad de que el esfuerzo fracase y el programa falle en su objetivo de aportar una perspectiva fiel acerca de la credibilidad de las investigaciones científicas en el caso de que no logre generar un banco de datos sólido o realizar experimentos de reproducción de alta calidad. De todos modos, considera que el riesgo vale la pena. “Cualquiera sea el resultado vamos a aprender mucho sobre los procesos de la ciencia y cómo mejorarlos”.

Republicar