Investigadores italianos demostraron que la tecnología de inteligencia artificial que utiliza ChatGPT es capaz de generar datos falsos de ensayos clínicos para respaldar las conclusiones de artículos científicos fraudulentos. En un paper publicado el 9 de noviembre en la revista JAMA Ophthalmology, el grupo del cirujano oftalmólogo Giuseppe Giannaccare, de la Universidad de Cagliari, en Italia, utilizó los recursos de GPT-4, la versión más reciente del modelo de lenguaje de ChatGPT, combinados con los de otro modelo ‒ Advanced Data Analysis (ADA) ‒ que produce análisis estadísticos y permite la visualización de datos. Con ellos, consiguió manipular los datos de ensayos clínicos relacionados con dos tipos de trasplante de córnea que se aplican para el tratamiento de una enfermedad llamada queratocono.
A pedido de los investigadores, los modelos generaron una diferencia estadística determinada en las pruebas efectuadas con los pacientes operados. Los ensayos clínicos simulados incluyeron a 160 participantes de sexo masculino y 140 femeninos, concluyendo que una cirugía era más efectiva que la otra, aunque esto no es verdad. Un ensayo clínico real que se llevó a cabo en 2010 con 77 participantes demostró que los resultados de ambos métodos eran similares hasta dos años después de las cirugías.
Según declaró Giannaccare a la revista Nature, el propósito del trabajo fue demostrar que es posible hacer que el modelo de inteligencia artificial produzca resultados científicos convincentes en pocos minutos, pero estos no están respaldados por datos reales e incluso pueden ir en contra de las evidencias. “Si no se los analiza con detenimiento, es difícil reconocer su origen no humano”, dijo el cirujano.
“Parece ser que es muy sencillo crear conjuntos de datos que, al menos superficialmente, sean plausibles”, dijo Jack Wilkinson, bioestadístico de la Universidad de Manchester (Reino Unido), quien analizó los ensayos falsos a pedido de la revista Nature. Junto con su colega Zewen Lu, solo pudo detectar incoherencias en los resultados tras realizar un examen minucioso. Existían discrepancias, por ejemplo, entre los nombres atribuidos a los pacientes y el sexo que cabría esperar en congruencia. Las edades de los voluntarios se agruparon de una forma que difícilmente se podría obtener en un experimento genuino: había una cantidad a todas luces anormal de participantes cuyas edades terminaban con los números 7 u 8. Otro problema era la falta de correlación entre las mediciones obtenidas en las pruebas realizadas con los pacientes antes y después de las cirugías. En un proyecto colaborativo, Wilkinson está desarrollando herramientas basadas también en la inteligencia artificial para detectar este tipo de estudios problemáticos.
Republicar