Imprimir Republish

Buenas prácticas

Los mecanismos de autocorrección de la ciencia

Un informe enumera acciones tendientes reducir la cantidad de trabajos científicos que no se confirman en estudios posteriores

Nelson Provazi

Un informe dado a conocer el mes pasado por las Academias Nacionales de Ciencias, Ingeniería y Medicina de Estados Unidos ha brindado unas bases objetivas para ampliar la credibilidad del trabajo de los científicos, enfocadas en la reducción de la cantidad de investigaciones cuyos resultados terminan sin confirmación en estudios posteriores. Intitulado “Reproducibilidad y replicabilidad en la ciencia”, el documento de 196 páginas fue encargado por la National Science Foundation, principal agencia de fomento de la ciencia básica estadounidense, y es fruto de un año y medio de discusiones promovidas por un comité multidisciplinario integrado por 13 investigadores.

De acuerdo con el médico Harvey Fineberg, exdirector de la Escuela de Salud Pública de la Universidad Harvard y presidente del comité que elaboró el informe, la confirmación de los resultados científicos en estudios subsiguientes es un mecanismo de autocorrección de la ciencia consagrado y de suma importancia. “Pero algunos factores como la falta de transparencia en la notificación de dados, la ausencia de capacitación adecuada y los errores metodológicos pueden impedir que los investigadores reproduzcan o repliquen un estudio”, advirtió el médico. “Los órganos de financiación de la investigación, las revistas, las instituciones académicas, los formuladores de políticas y los propios científicos tienen un rol que desempeñar en la mejora de la reproducibilidad y replicabilidad, asegurando que los investigadores sigan prácticas de estándar elevado, comprendan y expresen la incertidumbre inherente a sus conclusiones y continúen con el fortalecimiento de la red interconectada del conocimiento científico, que es el principal impulsor del progreso en el mundo moderno”, afirmó Fineberg, en la presentación del documento.

Para producir un conjunto de recomendaciones dirigido a investigadores, instituciones y agencias de fomento, los miembros del comité consideraron necesario, en primer lugar, definir de forma precisa el significado de los términos “reproducibilidad” y “replicabilidad”, que no siempre se entienden bien. El concepto de reproducibilidad, según el informe, se vincula a la capacidad de alcanzar los mismos resultados de un estudio partiendo de premisas idénticas, o sea, las bases de datos del trabajo original. De esa manera, el problema tiene una dimensión estrictamente computacional, en la que lo esencial es tener acceso al conjunto de informaciones y saber cómo han sido almacenadas y analizadas.

La recomendación principal del informe consiste en que se deje a disposición de forma transparente no solo los datos que fundamentaron el trabajo inicial sino también los métodos, códigos, modelos, algoritmos y software utilizados para llegar al resultado; puede resultar útil saber incluso cuál fue el sistema operativo y la arquitectura de hardware que sostuvieron la realización del estudio. En el documento se encuentran algunas sugerencias adicionales, como la de garantizar la capacitación adecuada a los investigadores sobre las prácticas de investigación computacionales, proveer los medios para que grandes conjuntos de datos sean preservados y puestos a disposición para estudios subsiguientes e invertir en proyectos de investigación para ampliar los límites de la ciencia de la computación a fin de mejorar la capacidad de verificar la robustez de los trabajos científicos. Se propone asimismo que las revistas científicas refuercen las políticas y acciones que faciliten la confirmación de los experimentos descritos en sus artículos. “Los periódicos científicos podrían crear el puesto de editor de reproducibilidad para supervisar ese trabajo”, sugirió la ingeniera espacial Lorena Barba, de la Universidad George Washington, en Washington, que participó del comité multidisciplinario.

En tanto, el concepto de replicabilidad tiene más matices. Presupone la posibilidad de alcanzar respuestas convergentes para determinada pregunta científica, pero partiendo de bases de datos independientes.
Un estudio puede no ser replicable por diversas razones. Cuando la causa es un fraude o sesgo, la mayoría de los casos se identifican como de mala conducta. Pero el problema también puede derivarse de las incertidumbres inherentes de las investigaciones y, en esas situaciones, no se puede decir, necesariamente, que el estudio original estuviera equivocado. “Debido a variabilidades en la naturaleza o a limitaciones de los dispositivos de medición, los resultados se evalúan de forma probabilística y el proceso de descubrimiento científico es incapaz de entregar una verdad absoluta”, se afirma en el informe, en el que además se apunta una de las funciones principales de los estudios de replicabilidad: “Las afirmaciones científicas adquieren una probabilidad mayor o menor de ser verdaderas según los resultados de las investigaciones que las confirmen”.

Una constatación valiosa
De acuerdo con el documento, la constatación de que un experimento no es replicable puede incluso ser valiosa para la ciencia, al detectar efectos desconocidos o fuentes de variabilidad no evaluadas. Si no es posible evitar que eso ocurra, intentar reducir la cantidad de episodios es importante para evitar el desperdicio de tiempo y de recursos. Por ello, se encuentra en el informe la sugerencia a los investigadores de que divulguen sus hallazgos de modo más cuidadoso y criterioso. “Deben tener el cuidado de estimar y explicar la incertidumbre asociada a sus resultados, de hacer un uso adecuado de los métodos estadísticos y de describir sus procedimientos y datos de manera clara y completa”, se lee en el documento, en el que también se recomienda evitar exageraciones en la divulgación de los resultados para no generar falsas expectativas.

Los responsables del informe critican el énfasis excesivo que se le otorga al valor de p, una medida que representa la probabilidad de que el efecto observado se deba al azar y no a los factores que están en estudio. Un valor de p menor o igual a 0,05 se utiliza a menudo como un indicador de significación estadística, pues sugiere que los resultados son robustos. Según el comité, es necesario analizar todo un conjunto de parámetros, como las distribuciones de las observaciones y medidas como proporciones y desviaciones estándar, con el fin de evaluar el vigor de los datos y las incertidumbres en ellos contenidas.

Para ampliar la confianza en los resultados de la investigación, se sugiere en el informe la evaluación de las evidencias acumuladas en diversos trabajos científicos –lo cual permite saber hasta qué punto los resultados encontrados se pueden generalizar– en lugar de contentarse con la verificación de estudios aislados. Se recomienda igualmente a las autoridades y formuladores de políticas públicas que eviten la trampa de desacreditar o descartar una conclusión corroborada por distintos trabajos solo porque haya surgido una evidencia aislada que refute el resultado conocido. Harvey Fineberg considera exagerada la idea corriente de que la ciencia vive una crisis de credibilidad resultante de una escalada en el número de investigaciones irreproducibles o imposibles de replicar. “No existe una crisis. Pero tampoco hay más tiempo para ser complaciente con el problema”, sostiene.

Republicar