En busca de métricas más refinadas : Revista Pesquisa Fapesp

Un artículo que salió publicado en febrero en la revista Scientometrics presentó una herramienta informática que puede ser de utilidad para el análisis de la producción científica de los investigadores. Se trata de un algoritmo capaz de recabar información sobre el conjunto de papers de un autor determinado y analizar, por ejemplo, hasta qué punto esa producción tiene que ver con los temas candentes de su disciplina o cuáles fueron sus repercusiones, generando citas en otros trabajos, en comparación con la de colegas con intereses similares. Los autores del manuscrito, el ingeniero de materiales Edgar Dutra Zanotto, de la Universidad Federal de São Carlos (UFSCar) y el estudiante universitario de computación Vinícius Carvalho desarrollaron el algoritmo para recopilar y procesar los datos de dos indicadores provistos por SciVal, una plataforma analítica vinculada a la base de datos Scopus, de la editorial Elsevier.

Uno de ellos es el Field-Weighted Citation Index (FWCI), que analiza las citas de un artículo, comparándolas con las de otros papers que incluyen palabras claves similares y con la misma antigüedad. El índice sopesa cuánto se citó el artículo en comparación con el promedio de citas de sus homólogos. Si el resultado fuera 1, esto significa que registra exactamente una repercusión promedio y, si fuera superior, la misma es mayor. La ventaja de esta metodología radica en que permite comparar estudios de cualquier área del conocimiento, ponderando su importancia con respecto a otros del mismo tema. Otros indicadores del impacto científico no permiten este tipo de analogía, porque cada disciplina posee prácticas de publicación peculiares y sus comunidades tienen un tamaño dispar, que repercute en la frecuencia con la que sus estudios son citados sin que esto represente una diferencia de impacto y visibilidad.

El segundo indicador es el Topic Prominence Percentile (TPP), que muestra el grado de sintonización de los temas de un artículo con aquellos que constituyen el centro del debate actual en su campo del conocimiento. El índice de preponderancia se calcula sobre la base de la cantidad de citas que el paper acumuló durante los últimos dos años, el factor de impacto de la revista en la que fue publicado y el número de visualizaciones que registró en internet. Su contenido se compara con una especie de ranking de temas de investigación, que también se elabora a partir de los estándares de citas, sugiriendo cuánto converge con los temas más en boga entre los editores de revistas o que han captado más financiación de las agencias de fomento. “El problema reside en que para calcular el rendimiento global de un investigador se necesita evaluar cada publicación en forma individual, algo que lleva mucho tiempo. El software que hemos desarrollado recopila dentro de la base Scopus el FWCI y el TPP del conjunto de los papers de un autor y se propone ofrecer un retrato completo de su producción”, explica Dutra Zanotto.

Una prueba preliminar del algoritmo realizada con la producción de un investigador que, desde el año 2000 en adelante, publicó 226 artículos, pudo completarse en tan solo 35 minutos. Algunos resultados fueron interesantes. El FWCI del conjunto de trabajos más recientes era muy similar al de los más antiguos, señal de que la valoración efectuada por el índice corrigió distorsiones y registró un desempeño estable del científico. También detectó que la producción realizada en colaboración internacional coincide con un FWCI más alto y que su índice de prominencia era mayor. A continuación, se utilizó el software para analizar la producción de 15 investigadores sénior, incluidos dentro del nivel 1A en el Consejo Nacional de Desarrollo Científico y Tecnológico (CNPq) –académicos con entre 30 y 50 años de carrera–, y la de 12 jóvenes investigadores prolíficos, seleccionados entre diversas áreas, entre ellas, química, física, astronomía, matemática, biología y materiales. Se pudo comprobar que prácticamente todos los de la muestra ostentaban un FWCI promedio superior a 1. Se llevó a cabo un segundo análisis, normalizando los artículos según la cantidad de autores de cada uno de ellos. Al hacerlo, dos de los investigadores sénior del área de matemática, que habían firmado sus trabajos tan solo junto a dos o tres colegas, siguieron registrando un FWCI superior a 1 y superaron a los demás, de otras áreas, que generalmente compartían la autoría con más coautores. “El algoritmo propuesto y las métricas resultantes aportan una nueva herramienta a la cientometría”, sostiene el investigador, en referencia a la disciplina que estudia los aspectos cuantitativos de la ciencia.

Líder de uno de los principales grupos de investigación en nucleación y cristalización de vidrios del mundo, Edgar Dutra Zanotto coordina desde 2013 el Centro de Investigación, Educación e Innovación en Vidrios (CeRTEV), uno de los Centros de Investigación, Educación y Difusión (Cepid) financiados por la FAPESP. Su dedicación a los estudios en cientometría es esporádica: de los más de 350 artículos de su autoría, tan solo cinco son de la materia. Su interés por el tema se remonta al comienzo de la década de 2000, cuando fue miembro de la coordinación adjunta de ciencias exactas e ingenierías de la FAPESP. “En ese entonces evaluaba continuamente los currículos de científicos y becarios y empezaron a aparecer una serie de métricas para analizar la producción de los investigadores, como fue el índice h”, dice, en referencia al indicador propuesto en 2005 por el físico argentino Jorge Hirsh, que combina el número de artículos con la consistencia de sus citas y que se generalizó por la facilidad para calcularlo. En busca de parámetros más exhaustivos, Dutra Zanotto publicó también en Scientometrics, en 2006, un estudio en el que sugería una forma de clasificar a los investigadores basada en 11 criterios, entre ellos, los premios internacionales obtenidos, la cantidad de artículos publicados en revistas de alto impacto y el volumen de financiación de investigaciones obtenido de las agencias científicas de fomento y de empresas (lea en Pesquisa FAPESP, edición nº 124). La idea sirvió para fomentar el debate académico y no llegó a adoptarse a gran escala. Pero Dutra Zanotto sigue utilizando hasta los días actuales esa clasificación cuando evalúa currículos de investigadores para proyectos y premios.

Entre 2017 y 2019, Dutra Zanotto presidió el Consejo Científico del Instituto Serrapilheira, una institución privada de fomento de la investigación científica con sede en Río de Janeiro, y retomó su interés por las métricas de evaluación. Descubrió casi una centena de indicadores disponibles. Existe, por ejemplo, el índice g, que indica cuándo un investigador tuvo, entre su conjunto de artículos, algunos muy citados, una particularidad que el índice h no capta. La proliferación de trabajos con cientos de autores también condujo a la creación de índices que sopesan el impacto de la contribución de cada uno, evitando distorsiones al comparar con papers con pocas firmas. En el Serrapilheira, Dutra Zanotto estudió varias métricas para complementar el análisis de los proyectos de investigación del instituto. “La evaluación de la productividad, la calidad y la visibilidad de los científicos es pertinente, pero muy compleja, y todavía no hay una solución clara adoptada universalmente. Los indicadores como el índice h han sido utilizados por muchos, pero no todos. Si no se entienden bien, pueden causar, y han causado, numerosas distorsiones. El FWCI las corrige razonablemente, pero no perfectamente”, explica Dutra Zanotto.

La creación de nuevos indicadores bibliométricos fue impulsada por el desarrollo de la ciencia de datos, que permitió extraer tendencias de grandes volúmenes de información. Empresas tales como Elsevier y Clarivate, que mantienen respectivamente las bases de datos Scopus y Web of Science, comenzaron a comercializar servicios de análisis de la producción científica para administradores, universidades y agencias científicas de fomento con métricas cada vez más refinadas, aunque la base de la mayoría de ellas sigue siendo el número de artículos y las citas. Sergio Salles-Filho, coordinador del Grupo de Estudios sobre Organización de la Investigación Científica y la Innovación de la Universidad de Campinas (Geopi-Unicamp), quien trabaja con la evaluación de la producción académica y tecnológica, dice que los análisis pudieron mejorarse en los últimos años gracias a estas nuevas métricas. “Los resultados de la evaluación se volvieron más precisos, estableciendo comparaciones adecuadas y evitando distorsiones”, sostiene. En un informe de evaluación reciente de tres programas de la FAPESP (de apoyo a las pequeñas empresas, colaboraciones internacionales y formación de investigadores), Salles-Filho complementó los resultados con datos sobre el índice de preponderancia de las investigaciones realizadas, dejando en claro que un resultado bajo no significa falta de calidad, sino que tan solo podría indicar que un tema de investigación de gran interés para Brasil no encabeza la agenda de la comunidad internacional (lea en Pesquisa FAPESP, edición nº 297).

Además de los indicadores que normalizan la contribución de los investigadores según las características de su disciplina, también han ganado espacio en los procesos de evaluación las denominadas métricas alternativas, o “altmetrías”, que evidencian la penetración de los artículos científicos en la prensa y en los medios sociales (lea en Pesquisa FAPESP, edición nº 250)). La base de datos Dimensions, creada en 2018, proporciona un índice sintético de altmetría compuesto por más de una decena de parámetros, entre citas en blogs, referencias en tuits, “me gusta” en Facebook o intercambios en la red social académica Mendeley. “La base Dimensions solo consigue detectar la repercusión de un trabajo en la prensa o en las redes sociales si contiene su registro DOI [Identificador de Objeto Digital]. Por ello, los investigadores empezaron a incluir el DOI cuando difundían sus estudios en Twitter o Facebook”, explica Salles-Filho.

Pese a la utilidad de los nuevos indicadores, persiste el debate sobre hasta qué punto estas métricas pueden reconocer la calidad de un estudio científico y si tienen el potencial de sustituir la revisión por pares, en la que el contenido y el grado de innovación y originalidad de la producción de un autor son analizados por investigadores de su área para medir el valor de su contribución. Para el bioquímico Jorge Guimarães, queien presidió la Coordinación de Perfeccionamiento del Personal de Nivel Superior (Capes) entre 2004 y 2015, los indicadores bibliométricos ofrecen una información importante y permiten evaluar un volumen de datos muy amplio. “Aunque criticadas, estas métricas son cada vez más utilizadas por el segmento académico porque hay pocas alternativas. Imagínese a un investigador que ha escrito 200 artículos. ¿Un evaluador los leerá todos? No es factible. En primer lugar, necesito saber qué artículos tuvieron eco en la comunidad científica y recibieron más citas. Y cuántos no fueron citados. Si la proporción es alta, este es un dato relevante”, dice Guimarães, quien actualmente preside la Empresa Brasileña de Investigación e Innovación Industrial (Embrapii).

En la década de 2000, la Capes creó el Qualis, un sistema de clasificación de las revistas científicas que se emplea para evaluar la producción de los programas de posgrado en Brasil. El sistema está siendo revisado y a menudo es criticado porque mide el impacto de un artículo no por el número de citas que realmente recibió, sino por un parámetro indirecto: el índice de citas de la revista que lo publicó. “Es una crítica injusta, porque la evaluación de la Capes se centra en lo publicado en los cuatro años anteriores y, en ese breve espacio de tiempo, la cantidad de citas que recibe cada artículo es pequeña, no serviría como parámetro para evaluarlos”, dice.

El matemático e ingeniero Renato Pedrosa, coordinador del programa especial de indicadores de la FAPESP, reconoce la utilidad de los índices bibliométricos en los procesos de evaluación, pero considera prudente utilizarlos con moderación. “Al fin y al cabo, todos se basan en los mismos parámetros: los artículos y sus citas. Es razonable utilizarlos, por ejemplo, cuando se evalúa la producción de una universidad o de un departamento, pero el análisis de la producción individual de un investigador exige un mayor detalle y cuidado”, dice Pedrosa, quien es investigador del Departamento de Política Científica y Tecnológica de la Unicamp. Él menciona como ejemplo al proceso de evaluación de las universidades y laboratorios del Reino Unido, que se realiza cada cinco años y, en lugar de centrarse en toda la producción académica del período, les pide a los investigadores que seleccionen los dos o tres trabajos más significativos para que los revisores puedan analizarlos en profundidad.

La preocupación está en sintonía con el Manifiesto de Leiden sobre las métricas de investigación, concebido en los Países Bajos en 2015, que advierte sobre el uso indiscriminado de los indicadores en la toma de decisiones de las universidades y de las agencias científicas de fomento. “Corremos el riesgo de dañar al sistema de la ciencia con las mismas herramientas diseñadas para mejorarlo, ya que la evaluación la llevan a cabo cada vez más instituciones que no poseen un conocimiento pertinente sobre las buenas prácticas y la interpretación adecuada de los indicadores”, expresa el manifiesto. Pedrosa también llama la atención al respecto de una importante limitación de los indicadores bibliométricos, que es su incapacidad para evaluar a los investigadores que inician su carrera. “Aunque tengan talento y potencial, los jóvenes investigadores no han tenido tiempo de producir artículos y recibir citas”, dice. Una de las ventajas del FWCI es que normaliza la cantidad de citas recibidas en función de la antigüedad del paper.

Artículo científico
ZANOTTO, E. D. et al. Article age- and field-normalized tools to evaluate scientific impact and momentum. Scientometrics. 25 feb. 2021.

Republicar

Republish