Imprimir Republish

BUENAS PRÁCTICAS

El gato que calculaba

Un biólogo revela las vulnerabilidades de las métricas académicas al atribuir estudios falsos y citas manipuladas a su mascota familiar

Arnanzung/Getty Images

Estudios falsificados atribuidos a un gato gris atigrado llamado Larry demostraron la posibilidad ‒y la facilidad‒ de manipular ciertos tipos de indicadores de productividad científica. El minino en cuestión tiene como tutora a la abuela del biólogo computacional Reese Richardson, estudiante doctoral de la Universidad Northwestern (EE. UU.) y coordinador de un experimento que, al adjudicarle la autoría de trabajos científicos a un felino, puso de manifiesto una estrategia que emplean autores fraudulentos para engrosar su puntaje académico valiéndose de las fallas y las negligencias de la red social ResearchGate y la plataforma Google Scholar.

En un trabajo conjunto con el experto en mala conducta científica Nick Wise, del Reino Unido, el biólogo abrió una cuenta en ResearchGate a nombre de la mascota familiar, Larry Richardson, supuestamente un matemático en comienzo de carrera. “Cualquiera puede crear un perfil en ResearchGate y, si uno utiliza una dirección de correo electrónico académico, no es necesaria ninguna comprobación adicional”, explicó el biólogo en su blog personal. Por ello tomó la precaución de crear una dirección de correo electrónico a nombre del gato en el servidor de la Universidad Northwestern, con el propósito de no despertar sospechas en la plataforma.

Una vez hecho esto, el dúo cargó en la cuenta del animal un conjunto de 12 manuscritos que tenían a Larry como único autor: en realidad, se trataba de textos sin ningún sentido cuyos títulos trataban temas tales como álgebra compleja y la estructura de los objetos matemáticos. En simultáneo, se generaron y se publicaron en el perfil otros 12 manuscritos falsos atribuidos a investigadores ficticios, que en sus referencias bibliográficas citaban los 12 artículos del felino. Como ResearchGate solamente permite que los investigadores divulguen en sus perfiles artículos propios, el nombre de Larry también fue incluido en la lista de coautores de esos trabajos.

Los robots rastreadores de Google visitaron el perfil en ResearchGate y tardaron dos semanas en contabilizar las citas. Una vez hecho esto, se creó automáticamente una página en Google Scholar del matemático Larry Richardson, que exhibía 11 artículos y 132 citas (uno de los textos, por alguna razón, escapó al escaneo), asignándole al gato un índice h de 11. El índice h es una métrica afianzada en la comunidad científica que mide tanto la productividad de un investigador como el interés que despertó. Un índice h de 11 significa que un autor publicó en su carrera al menos 11 artículos y que cada uno de ellos fue citado al menos 11 veces en otros papers.

La idea de realizar el experimento se le ocurrió a Richardson cuando Nick Wise le alertó de la existencia de anuncios en Facebook sobre servicios fraudulentos que prometían aumentar la cantidad de citas y el índice h en Google Scholar. Una de esas publicidades incluía como ejemplo a 18 clientes, mostrando capturas de pantalla de sus páginas en Google Scholar “antes y después” de la compra de citas. En su mayoría se trataba de matemáticos de la India, pero también había uno de Omán y otro de Estados Unidos. Cada cita tenía un costo de 10 dólares, y los clientes exhibidos habían encargado entre 50 y 500 citas cada uno.

En algunas situaciones pudo observarse que las referencias figuraban en artículos de una revista sospechada de incurrir en prácticas depredadoras: la hipótesis es que la empresa que vende las citas se confabuló con esta revista para publicar papers con referencias adulteradas. Pero la mayoría de los casos seguían una estrategia abiertamente fraudulenta. Los manuscritos con las citas estaban firmados por nombres como el del filósofo y matemático Pitágoras (570-495 a. C.) o el matemático ruso Andrei Kolmogorov (1903-1987). Aunque los títulos y resúmenes parecían consistentes, el resto no tenía sentido. Richardson y Wise descubrieron que estos artículos habían sido producidos por un software ‒MathGen‒ que combina secuencias de palabras y fórmulas extraídas de artículos auténticos para componer textos que, sin embargo, son disparatados.

Los estudios falsos habían sido publicados exclusivamente en perfiles de la red social ResearchGate, sin haber sido sometidos a ningún tipo de revisión por pares ni, al menos, puestos a disposición en repositorios de preprints donde habría sido posible que lo revisaran otros expertos. En cuanto Google Scholar computaba los artículos y las citas en la página del autor, los manuscritos eran eliminados de ResearchGate para borrar las evidencias. Solo pudieron encontrarse algunos de ellos en la memoria caché de Google. “A pesar de las vulnerabilidades de Google Scholar y ResearchGate, las métricas cuantitativas calculadas por estos servicios son utilizadas habitualmente para evaluar a los científicos”, dijo Richardson.

Lo cierto es que este tipo de fraude solo funciona para las métricas de Google Scholar, que hace un rastreo exhaustivo de la literatura académica disponible en internet y tiene en cuenta las versiones de los artículos científicos publicados en los perfiles personales de los investigadores. En cambio, otras bases de datos como Web of Science, de la empresa Clarivate Analytics, y Scopus, de la editorial Elsevier, trabajan con artículos de revistas científicas indexadas y no son vulnerables a este tipo de trampas.

Una vez concluido el experimento, el caso fue denunciado en el blog de Richardson, en una entrada intitulada “Crear al gato más citado del mundo, Larry”. La idea de utilizar un felino como autor no ha sido un hecho excepcional. Richardson recordó el caso del físico teórico Jack Hetherington, quien en 1975 publicó dos artículos y un capítulo de un libro en colaboración con un tal F. D. C. Willard. Las iniciales correspondían a “Felis Domesticus Chester Willard”, el gato siamés del investigador. Como los trabajos de Hetherington y su mascota acumularon 107 citas, la meta era que Larry superara esa marca. Pero la hazaña del gato atigrado solo duró una semana. Una vez alertado del fraude, Google Scholar borró los artículos, aunque mantiene la página a nombre de Larry Richardson.

Otros investigadores ya habían detectado indicios de este tipo de falsificación. En febrero, los científicos de la computación Talal Rahwan y Yasir Zaki analizaron más de un millón de páginas de investigadores en Google Scholar y, en una pequeña parte de ellas, 114 en total, detectaron patrones de citas anómalos. “Algunas de las referencias dudosas de la gran mayoría procedían de ResearchGate”, declaró Zaki a la revista Science.

El director general de ResearchGate, Ijad Madischy, informó que “es consciente de los crecientes problemas de integridad en la comunidad investigadora mundial” y le aseguró a Science que se están revisando sus procesos. Según él, las pruebas de que los contenidos fraudulentos se eliminan tras haber sido indexados por Google ayudarán a la red social a mejorar su vigilancia sobre la mala conducta.

Republicar