La declaración anual del Comité para la Integridad en la Investigación Científica del Reino Unido (UKCori), publicada en julio, destacaba que el avance de la inteligencia artificial ha creado nuevos desafíos, como la identificación de los artículos académicos generados por ChatGPT, pero también está brindando oportunidades para ampliar la productividad científica y combatir la mala conducta. “Las herramientas que utilizan la inteligencia artificial pueden mejorar los procesos de investigación”, consignaron los miembros del comité en el informe, en referencia al uso creciente de esta tecnología por los editores de las revistas científicas para agilizar el proceso de análisis y selección de artículos o para detectar indicios sutiles de manipulación de imágenes o ardides para tratar de burlar a los programas antiplagio.
La inteligencia artificial, sostiene el documento, también puede ser útil para proporcionar datos de interés a los organismos de promoción de la integridad científica que difícilmente podrían obtenerse de otra forma: el propio informe del UKCori publica una tabla con indicadores de ciencia abierta, como la evolución de la cantidad de datos y códigos compartidos por los investigadores en los repositorios públicos, producidos por la colección de revistas PLOS, utilizando técnicas de inteligencia artificial. El UKCori es un organismo independiente creado en 2022 para promover las buenas prácticas científicas en el Reino Unido, vinculado al UK Research and Innovation (Ukri), la principal agencia de fomento de la ciencia del país.
Los grandes modelos del lenguaje, que en los programas como ChatGPT identifican patrones en la forma en que los humanos asocian palabras, números y símbolos, también pueden ser útiles para rastrear indicios de mala conducta científica. A finales de mayo, el equipo del científico de datos Dmitry Kobak, de la Universidad de Tubinga, en Alemania, publicó en el repositorio de preprints bioRxiv un atlas de toda la literatura del área de la biomedicina publicada en el mundo entre 1970 y 2021. Para generar el enorme mapa circular que, en parte, recuerda la imagen de una placa de Petri colonizada por bacterias, primero hubo que descargar los resúmenes de 20,6 millones de artículos empleando la herramienta de búsqueda PubMed, que proporciona acceso a la base de datos de la literatura biomédica Medline.
El grupo utilizó un modelo de lenguaje de inteligencia artificial, PubMedBert, y agrupó los artículos con características o términos similares. A los agrupamientos de papers con contenido convergente se los denominó “vecindarios”, y basta con hacer un zoom en el atlas para analizar los pormenores de estos conglomerados.
El mapa permite examinar tendencias de todo tipo presentes en la literatura, como las relacionadas con el género y con el origen de los autores de cada agrupamiento, pero también ha demostrado tener capacidad para detectar la mala conducta de una manera más eficaz que la disponible actualmente. Los investigadores analizaron un conjunto de 11.756 artículos presentes en el atlas que habían sido retractados, un estatus que identifica a aquellos papers que fueron anulados debido al hallazgo de errores, fraudes o plagio que atentaban contra la integridad de sus contenidos. Los resúmenes han sido marcados como retractados por la base de datos PubMed para que no puedan ser considerados como literatura válida.
Si bien se encontraban dispersos por todo el mapa, muchos de ellos estaban situados en un mismo vecindario, formando lo que los autores llamaron “islas”, en las que se pudo identificar concentraciones de artículos retractados en temas específicos, tales como investigaciones sobre fármacos contra el cáncer, genes marcadores y las funciones de los micro-ARN. Estos son temas que suelen abordarse en los trabajos fraudulentos producidos por fábricas de artículos científicos, servicios ilegales que, por lo general, elaboran estudios con base en datos o imágenes falsificados, les venden la autoría de los trabajos a investigadores interesados e incluso ayudan a presentarlos para su publicación a nombre de sus clientes.
Cuando examinaron los demás artículos que formaban parte de las islas y que no habían sido retractados, el grupo encontró 25 trabajos que también pueden haber sido producidos por fábricas de papers, pero que no habían llamado la atención. Presentaban características comunes a estos artículos fraudulentos, como títulos con un patrón idéntico o el vínculo de sus autores con hospitales de China. El análisis de las islas puede ayudar a los editores de revistas y universidades a investigar estudios que podrían haber escapado a su escrutinio. “Pero los conglomerados de artículos similares necesitarían un mayor escrutinio para evitar marcar erróneamente artículos de origen genuino”, declaró Jennifer Byrne, docente del área de oncología molecular de la Universidad de Sídney (Australia) y experta en integridad científica, a la revista Science.
Otro frente prometedor abierto por la inteligencia artificial es la identificación de las llamadas revistas depredadoras, aquellas que publican artículos a cambio de dinero sin hacer una evaluación rigurosa de su contenido. Un grupo de científicos de la computación de la Universidad Nacional Yang Ming Chiao Tung, de Taiwán, han desarrollado un sistema de verificación de revistas al que llamaron AJPC, que se basa en el aprendizaje automático. Se recabaron datos de 883 revistas identificadas como depredadoras en dos listas disponibles en internet y de otras 1.213 revistas de buena procedencia, obtenidas de una recopilación realizada por el Instituto de Salud de Berlín. Estas listas suelen utilizarse para orientar a los autores a la hora de elegir revistas de probada reputación para publicar sus artículos.
El equipo extrajo información que ayudó a identificar palabras y términos característicos de los sitios web de revistas depredadoras. Descubrió, por ejemplo, que las páginas de estas publicaciones tienden a hacer demasiado hincapié en términos como “revisión por pares” e “indexación”, mientras que las revistas legítimas mencionan con más moderación los conceptos que normalizan los procesos de publicación. A continuación, probó ocho algoritmos diferentes de aprendizaje automático con potencial para distinguir entre revistas depredadoras y legítimas. Seleccionó uno de ellos, el algoritmo conocido como “bosque aleatorio”, que obtuvo los mejores resultados al identificar una muestra de 167 sitios, con el mayor índice de aciertos y tan solo dos falsos negativos. “Los resultados de las pruebas de rendimiento sugieren que nuestro sistema funciona tan bien o mejor que los que se utilizan actualmente para identificar editoriales y publicaciones sospechosas”, escribieron los investigadores taiwaneses en el artículo publicado en la revista Scientific Reports que presentó el AJPC. Ellos remarcan que las conclusiones son de carácter meramente orientativo y que es necesario complementar el análisis con un examen humano personalizado. El paso siguiente será entrenar al sistema para que pueda identificar fraudes en actas de congresos, que tienen características diferentes a las de las revistas depredadoras. Este recurso ya se está utilizando en las universidades de Taiwán.
Republicar