BIBLIOMETRÍA

¿De quién es esta firma?

Científicos de la computación crean nuevas estrategias para disipar ambigüedades en referencias bibliográficas

Imagem: Daniel Kondo

Licenciados en ciencias de la computación de la Universidad Federal de Río de Janeiro (UFRJ) propusieron un nuevo abordaje para enfrentar el problema de la ambigüedad de firmas de autores científicos en las referencias bibliográficas, que lleva a que la producción de un investigador pueda confundirse con la de otros colegas que adoptan una abreviatura idéntica o bien, que sea difícil de agrupar y analizar porque el mismo investigador utiliza firmas diferentes. En un artículo publicado en el mes de mayo en la revista Scientometrics, la licenciada en ciencias de la computación Janaina Gomide y su director de tesis doctoral, Daniel Ratton Figueiredo, docente del Programa de Ingeniería de Sistemas y Computación de la UFRJ, revelaron la existencia de comportamientos que se repiten entre los autores que utilizan varias firmas.

Uno de ellos es el cambio raro o accidental de la firma en alguno de los papers publicados, una especie de punto fuera de la curva causado por un error o descuido del autor o de la revista. Otro patrón de conducta es el del investigador que firma de una manera al comienzo de su carrera y, a partir de cierto momento, comienza a firmar de otra forma, como en el caso, por ejemplo, de las mujeres que cambian de apellido cuando se casan o se divorcian. Y también, finalmente, existe el caso de una pauta más difícil de detectar, la del académico que firma de varias formas sin preocuparse por una estandarización de su firma.

Los analistas evaluaron la incidencia de esos comportamientos en dos ámbitos distintos. Uno de ellos fue la base de datos del Digital Bibliographic Library Project (DBLP), que engloba la producción de científicos de la computación y se utiliza con frecuencia como referencia en estudios sobre ambigüedad, porque ya se han mapeado los casos en que aparecen patrones de firma repetitivos. También se analizó a 881 investigadores brasileños cuyos perfiles en el Google Scholar exhibían más de un tipo de firma, seleccionados entre los becarios de productividad del Consejo Nacional de Desarrollo Científico y Tecnológico (CNPq).

Se reveló que la sustitución accidental de la firma es lo más frecuente, con un 43% de los registros en el DBLP y un 53% en el Google Scholar. El cambio de firma en determinado momento de la carrera suma un tercio de los casos en el DBLP y un 18% en Google Scholar. En tanto, la variación frecuente de firmas se reveló como algo un poco más común entre los autores nacionales en Google Scholar, con un tercio de los casos, y menos habitual en el DBLP, que agrupa a investigadores de varios países, con un 25% del total. Una de las explicaciones para el cambio frecuente de firma entre los brasileños reside en el uso de nombres compuestos en el país y de más de un apellido propicia la confusión. “Tenemos muchos apellidos y los utilizamos en forma libre, mientras que los autores de Estados Unidos se identifican, por lo general, tan sólo con el primero y el último nombre”, explica Daniel Figueiredo, que incluso él mismo es una de las víctimas de ese inconveniente: la mayoría de sus artículos científicos lleva la firma Figueiredo, D. R., pero hay otros que figuran como Figueiredo, Daniel o también, Figueiredo, Daniel R.

El paso siguiente del trabajo consistió en un análisis de las redes de colaboración de los investigadores que publican con más de una firma. Se observó que cada una de las tres clases –el uso ocasional de una u otra firma, el cambio de firma en cierto momento de la carrera y el uso frecuente de varias firmas– presenta redes de colaboración con pautas claras y específicas, cuyos perfiles pueden ser útiles para formular en un futuro algoritmos capaces de ayudar en la identificación de nombres ambiguos. “Dilucidar la ambigüedad de nombres es un problema clásico de la computación y lo que siempre se intenta hacer consiste en hallar todos los rótulos, los tipos de firma, que aluden a una misma identidad”, dice Janaina Gomide. “Nuestra labor contribuyó a revelar las causas comunes de la ambigüedad, que ya se conocían de manera intuitiva, pero aún no habían sido calibradas, proponiendo su utilidad para la construcción de nuevos algoritmos”, agrega Figueiredo.

Imagem: Daniel KondoConfusión en la evaluación
El interés de los investigadores científicos por este tema se explica tanto por el desafío de generar herramientas computacionales para resolver un problema concreto como por la confusión que las ambigüedades causan a la hora de medir la producción de un científico, provocando alteraciones en procesos de evaluación o en estudios bibliométricos que requieren de informaciones precisas acerca de los autores. En un estudio publicado en 2012 en el periódico Sigmod Record, una publicación trimestral de la Association for Computing Machinery (ACM), el brasileño Alberto Laender, docente del Departamento de Ciencia de la Computación de la Universidad Federal de Minas Gerais (UFMG), contabilizó 17 métodos computacionales distintos que se empleaban en ese entonces para resolver el problema de la ambigüedad. “Hoy ya debe haber por lo menos unos 30 algoritmos diferentes en uso”, comenta.

El grupo de la UFMG elaboró tres de esos algoritmos. Uno de ellos, conocido por la sigla HHC (Heuristic-based Hierarchical Clustering), fue presentado en 2007 y comenzó a ser utilizado por la DBLP, la misa base de datos que se usó en el estudio de Daniel Figueiredo, como una de las herramientas más simples para afrontar el problema. Fruto de una tesina de maestría que defendiera Ricardo Cota en la UFMG, el HHC reúne las informaciones bibliográficas vinculadas a una firma y analiza si existen coautores que se repitan. Cuando detecta una coincidencia, también analiza si los títulos de los artículos contienen palabras en común o bien, si los autores tomaron parte en los mismos eventos científicos. La eficiencia para disipar la ambigüedad alcanzó un porcentaje cercano al 80%. “El método comenzó a utilizarse por su simplicidad, aunque la búsqueda por algoritmos cada vez más precisos prosiguió”, dice Laender. “Hay casos en los que no existe un algoritmo capaz de resolver el problema. Entre los autores con nacionalidad china, cuyos apellidos se repiten con frecuencia y hay una gran cantidad de abreviaciones coincidentes, llega a ser algo inviable”.

Un segundo método creado por investigadores de la UFMG fue el Sand (Self-training Associative Name Disambiguator), que agrupa referencias bibliográficas de acuerdo con características comunes, tales como la presencia de coautores, título y año de publicación. Valiéndose de técnicas de inteligencia artificial, consigue detectar, en su etapa final, si hay autores que, dadas sus características, deberían pertenecer a determinados agrupamientos, y calcular las posibilidades de que tales registros sean referencias ambiguas de otros autores ya existentes. “Estas técnicas de clasificación son bastante conocidas y uno de nuestros exalumnos de doctorado, Anderson Ferreira, en la actualidad, docente de la Universidad Federal de Ouro Preto, las adaptó para su desambiguación. El programa Sand realiza una comparación en diferentes clases de las referencias hasta arribar a la conclusión de que un determinado autor tiene que figurar en una de esas clases”, dice Laender. Y el tercer método es el IDNi (Incremental Unsupervised Name Disambiguation), que asocia diversas técnicas y se utiliza para evaluar nuevos trabajos científicos incorporados a bases de datos, asociándolos en forma automática a perfiles de autores existentes y evitando el surgimiento de nuevas ambigüedades.

Imagem: Daniel KondoModelos de conectividad
La combinación de distintas metodologías puede conducir a resultados más exactos. El investigador Diego Raphael Amancio, del Instituto de Ciencias Matemáticas y de la Computación de la Universidad de São Paulo (ICMC-USP), concibió un método para solucionar ambigüedades de firmas basado en el análisis de las redes de colaboración de los autores, aunque no se limita a analizar quién actuó en colaboración con quién. Su estrategia analiza los modelos de conectividad de una amplia red de investigadores y muestra la situación de cada autor en ese universo. “Utilizando conceptos de la teoría de redes complejas, se pueden generar grafos, evaluar la densidad de las conexiones entre autores y la distancia promedio entre el investigador que estoy estudiando y los demás”, explica Amancio, quien propuso el empleo de tales medidas para caracterizar la producción de un autor y compararla con la de otro con el mismo nombre, con el objetivo de resolver problemas de ambigüedad. Él fue el autor principal de un artículo publicado en 2015 en la Scientometrics que demostró la eficiencia del uso de esa técnica combinada con el análisis de modelos de colaboración ya afianzado. La misma reveló, en simulaciones con un conjunto de tres bases de datos elegidas para el estudio, que la capacidad de solucionar ambigüedades mediante esa estrategia híbrida alcanzó un 85%, frente a un 53% cuando solamente se utilizaba el abordaje tradicional.

Al mismo tiempo que amplificó el problema de la ambigüedad en las referencias bibliográficas, el crecimiento de la producción científica mundial inspiró nuevas soluciones que pasaron a incluirse en los algoritmos. En 2012 se creó un código alfanumérico que sirve como identificación única para los investigadores. Bautizado con el nombre de Orcid (Open Researcher and Contributor ID), comenzaron a exigir ese número las instituciones y agencias de fomento, y aglutina la producción de cada autor en forma automática (lea en Pesquisa FAPESP, edición nº 238). Ya hay más de 2 millones de autores que cuentan con su identificación particular. “Pero no todos los investigadores utilizan ese código y aún es necesario utilizar métodos empíricos para el análisis de bibliotecas antiguas”, dice Alberto Laender. Daniel Figueiredo acota que el conocimiento acumulado en el esfuerzo contra la ambigüedad de nombres podría tener otras aplicaciones. “Se pueden utilizar esas herramientas en otros contextos”, añade. Uno de ellos es el agrupamiento de informaciones de historias clínicas de un mismo paciente que fue atendido en hospitales públicos o centros de salud distintos. “También pensamos en estudiar el patrón de uso de nombres con ambigüedad de actores y realizadores en archivos filmográficos, tales como el Internet Movie Database”, informa Figueiredo.