Nuevas reglas para medir la calidad : Revista Pesquisa Fapesp

La comunidad científica de los Países Bajos está inmersa en una disputa que promete repercutir en la forma de evaluar la calidad del trabajo y el rendimiento de los investigadores en otras partes del mundo. La polémica comenzó en junio, cuando la Universidad de Utrecht, la institución de educación superior más antigua y de mayor ranking de ese país anunció una reforma de sus normas de contratación y promoción, derogando el uso de indicadores bibliométricos como el factor de impacto (FI) para medir la trascendencia de la producción de sus docentes. El FI, que se determina a partir de la cantidad de citas que recibe un artículo en las referencias bibliográficas de otros trabajos, se adopta, por ejemplo, para evaluar el prestigio de las revistas científicas: la empresa Clarivate Analytics actualiza anualmente la base de datos Journal Citation Reports, que estima el factor de impacto promedio de más de 10.000 publicaciones. En diversas disciplinas se considera al FI como un buen señalizador de la repercusión que ha tenido un artículo entre los expertos en su campo y se ha convertido en un parámetro base para el cálculo de otros indicadores, como el índice h, que combina la cantidad de artículos de un autor con la frecuencia de citas que registran los mismos.

En el nuevo modelo propuesto por la Universidad de Utrecht, los investigadores ya no serán evaluados por la cantidad y la influencia de sus papers, sino por la calidad de la enseñanza, el compromiso para el trabajo en equipo y su predisposición para compartir los datos de la investigación. Cada departamento deberá desarrollar sus propias estrategias para evaluar el rendimiento de sus docentes, teniendo en cuenta el efecto sobre la economía y la sociedad y los principios de la “ciencia abierta”, un conjunto de prácticas que promueve la transparencia y el trabajo en conjunto. “Tenemos la firme convicción de que algo tiene que cambiar. Y el abandono del factor de impacto es un cambio necesario”, dijo Paul Boselie, docente de la Escuela de Gobernanza de la universidad, responsable de la creación del nuevo sistema, en declaraciones a la revista Nature. Según él, el uso indiscriminado del FI ha dado lugar a consecuencias indeseables, como la excesiva preocupación por la publicación de artículos y la búsqueda de ardides para acrecentar sus repercusiones, dejando en segundo plano otros objetivos importantes de la actividad científica.

Esta decisión ha generado conmoción en otras instituciones de los Países Bajos, que se ha materializado en una carta abierta firmada por 170 investigadores que se oponen al cambio y temen que sea adoptado por más universidades. Entre sus signatarios se encuentra el premio Nobel de Química de 2016, Bernard Feringa, de la Universidad de Groninga. El argumento esgrimido es que, ante la falta de indicadores objetivos, los procesos de contratación y promoción pasen a regirse por criterios eventualmente arbitrarios. “El factor de impacto es un parámetro imperfecto, pero sigue siendo útil”, dijo Raymond Poot, biólogo celular del Centro Médico de la Universidad Erasmus de Rotterdam, uno de los firmantes de la carta, a la revista Nature Index.

A juicio de Jacques Marcovitch, rector de la Universidad de São Paulo (USP) entre 1997 y 2001, este enfrentamiento en los Países Bajos pone de manifiesto las ventajas y los límites de ambos abordajes. “Los indicadores bibliométricos son racionales y objetivos, pero se sabe que provocan comportamientos distorsionados y son incapaces de captar dimensiones como la calidad de la enseñanza en el aula”, sostiene. En cambio, el análisis minucioso de la contribución científica y académica de los investigadores es más laborioso y plantea retos complejos. “Naturalmente, esto implica un proceso cuya ejecución es más larga y difícil”, dice Marcovitch, quien coordina un proyecto financiado por la FAPESP destinado al desarrollo nuevas métricas para evaluar el desempeño científico, económico y cultural de las universidades públicas de São Paulo.

OCEGEP / FLICKR Campus de la Universidad de Utrecht: en lugar de tener en cuenta el factor de impacto, los docentes serán evaluados por la repercusión de su trabajo en la educación, en la economía y en la sociedadOCEGEP / FLICKR

La disputa en los Países Bajos es simbólica, pues supone una ruptura con los indicadores establecidos, cuyo uso excesivo ha sido criticado durante mucho tiempo como reduccionista. En los últimos años, diversos manifiestos han propuesto otras formas de hacer evaluaciones más completas y han ganado adeptos entre las universidades de todo el mundo. La más destacada es la Declaración de San Francisco sobre la Evaluación de la Investigación Científica (Dora), de 2012, respaldada por más de 20.000 investigadores y 2.000 instituciones de 148 países, que recomienda abolir el uso aislado del factor de impacto de las revistas en las evaluaciones relativas a la financiación, las promociones y las contrataciones. Otro documento de referencia es un conjunto de directrices definidas en 2019 en la 6ª Conferencia Mundial sobre la Integridad Científica, celebrada en Hong Kong, para evaluar el rendimiento de los investigadores de forma más amplia y establecer recompensas en sus carreras para aquellos profesionales que adopten prácticas capaces de apuntalar la integridad de la ciencia (lea en Pesquisa FAPESP, edición nº 303).

Las instituciones de varios países han ido aminorando la incidencia de los indicadores bibliométricos y ampliando la de los parámetros cualitativos, en busca de lo que se ha acordado en denominar “métricas responsables”. La Universidad de Glasgow, en el Reino Unido, ha incorporado recientemente el criterio de “colegialidad” a la evaluación de los docentes: para ascender hasta la cima de la carrera deben demostrar que han contribuido a la trayectoria de colegas y ayudantes, compartiendo datos y produciendo artículos en coautoría. En el sistema de evaluación universitaria del Reino Unido, utilizado para clasificar a las instituciones y para la asignación de recursos, hace tiempo que se combinan algunos indicadores bibliométricos con la revisión por pares de una selección de los trabajos más relevantes de los investigadores; el peso de cada modelo se ajusta en cada temporada de evaluación.

La estrategia de China también está cambiando. En lugar de valorar el volumen de estudios publicados, los investigadores ahora deben seleccionar sus mejores contribuciones para que sean analizadas por una comisión de expertos. Los chinos han anunciado su intención de desarrollar sus propios indicadores bibliométricos que incluyan el impacto regional de su investigación.

En noviembre del año pasado, se presentaron diversas iniciativas relacionadas con una evaluación más completa de la investigación científica en una conferencia virtual del Global Research Council, una entidad creada en 2012 para promover el intercambio de prácticas de gestión entre las agencias de financiación. En varios países se insta a los investigadores a que presenten un relato estructurado sobre su carrera, detallando su contribución individual, en lugar de enumerar el volumen de artículos y citas que han recibido. La Fundación Nacional de Ciencias de Suiza está probando un modelo de currículum de este tipo, denominado SciCV, fácil de completar y actualizar. La Royal Society del Reino Unido ha confeccionado un currículum dividido en cuatro secciones: generación de conocimientos, desarrollo de nuevos talentos, contribución a la comunidad investigadora y contribución a la sociedad.

En los últimos años, diversos manifiestos han propuesto formas más amplias de evaluar, ganando adeptos entre las universidades

Pese a los cambios, los indicadores bibliométricos siguen siendo una herramienta muy presente en la evaluación de la ciencia. Un estudio publicado en 2019 en la revista eLifeSciences comprobó que el 40 % de las universidades de investigación de Estados Unidos y Canadá mencionan a los factores de impacto u otros términos relacionados en los documentos relativos a la estabilidad, revisión y promoción de su personal. Un caso reciente que involucró a la Universidad de Liverpool, en el Reino Unido, revela las dificultades para promover un cambio de cultura. La institución es una de las firmantes del manifiesto Dora y se muestra comprometida con la adopción de métricas responsables, como por ejemplo, la revisión por pares del trabajo de sus investigadores. Sin embargo, se le critica la utilización de indicadores de carácter económico para elegir a los 32 docentes de su Facultad de Ciencias de la Salud y de la Vida que serán despedidos. Para mantener sus puestos de trabajo ellos tienen que demostrar que han conseguido atraer financiación para sus proyectos a niveles similares a los de un grupo de 24 universidades intensivas en investigación del cual forma parte esa casa de estudios. Un editorial reciente en la revista Nature apuntó al conflicto de Liverpool como una encrucijada para el movimiento suscitado por el manifiesto Dora.

La búsqueda y adopción de métricas responsables también avanza en Brasil. En un artículo publicado recientemente en la revista Anais da Academia Brasileira de Ciências, un trío de bioquímicos lanzó el manifiesto intitulado “La evaluación científica responsable: para minimizar los índices e incrementar la calidad”, que hace hincapié en la importancia de la revisión por pares para identificar el aporte de una investigación. Una de las recomendaciones consiste en crear mecanismos de recompensa para los buenos revisores, aquellos científicos que poseen conocimientos profundos sobre un tema y centran sus sugerencias en la posibilidad de mejorar la calidad del manuscrito o de un proyecto de investigación de un colega.

El documento también propone que los indicadores bibliométricos se utilicen con moderación, teniendo en cuenta sus limitaciones. “El trabajo de los investigadores que se desempeñan en la frontera del conocimiento no puede evaluarse en forma cuantitativa. Una evaluación de calidad solo pueden realizarla personas con experiencia, en la denominada revisión por pares”, dice Alicia Kowaltowski, investigadora del Instituto de Química de la USP y coordinadora de área de la Dirección Científica de la FAPESP, quien redactó el manifiesto en colaboración con Ariel Silber, también de la USP, y Marcus Oliveira, de la Universidad Federal de Río de Janeiro (UFRJ). El uso responsable de las métricas, dice Kowaltowski, requiere de un análisis del contexto. “El número de citas varía según las áreas del conocimiento y está supeditado a otros factores; los artículos de revisión, por ejemplo, no aportan datos originales, pero suelen acumular más citas. El contexto es importante”, afirma.

El bioquímico Jorge Guimarães, quien fue presidente de la Coordinación de Perfeccionamiento del Personal de Nivel Superior (Capes) entre 2004 y 2015 y actualmente preside la Empresa Brasileña de Investigación e Innovación Industrial (Embrapii), es cauteloso en cuanto a la dicotomía entre los indicadores de cantidad y de calidad. “Se habla mucho de migrar hacia componentes más cualitativos, pero nadie sabe realmente cuáles deben utilizarse”, dice. Él rechaza la idea de que los índices bibliométricos sean meramente cuantitativos. “El factor de impacto mide la calidad. Demuestra que alguien ha leído su artículo y lo ha utilizado como referencia, generalmente por la contribución que ha brindado.

Antonio Campoy / Flickr Universidad de Liverpool: críticas por la utilización de indicadores financieros para despedir investigadoresAntonio Campoy / Flickr

En la década de 2000, la Capes creó el Qualis, un sistema de clasificación de revistas científicas que se utiliza para evaluar los programas de posgrado en Brasil. El sistema está siendo revisado y a menudo es criticado por considerar la importancia de un artículo no por la cantidad de citas que realmente recibió, sino por un parámetro indirecto: el factor de impacto promedio de la revista que lo publicó. Esta estrategia es condenada en los manifiestos a favor de una métrica responsable, pero Guimarães explica que la misma tenía una razón de ser. “La evaluación de los programas tiene en cuenta la producción científica generada en los cuatro años anteriores. En ese breve lapso de tiempo, el número de citas de cada artículo es pequeño y no serviría como una buena medida de evaluación”, dijo. Y asevera que la importancia atribuida a cada revista era objeto de un profundo debate entre los representantes de los comités de evaluación de cada campo del conocimiento.

Guimarães sostiene que la interpretación de los indicadores siempre debe ser criteriosa, y menciona, por ejemplo, que el impacto de la ciencia brasileña en la agricultura tropical es escaso, ya que los resultados tienen un interés regional. “Pero nadie duda de su importancia económica y social en Brasil. Esto debe tenerse en cuenta en la evaluación”. En tanto, los investigadores brasileños del campo de la química, dice Guimarães, tienen trabajos de alta calidad. “Pero la extrapolación de la investigación desarrollada en las universidades hacia el sector industrial es escasa”.

Para Jacques Marcovitch, uno de los retos consiste en identificar los tipos de impacto que la universidad es capaz de generar en los diversos campos del conocimiento. “Hay métricas que son adecuadas para algunas disciplinas, pero para otras no tienen ningún significado. Así como para la ingeniería puede ser de utilidad un indicador de patentes, para la filosofía, el principal objetivo a lograr es el reconocimiento de los pares”, explica. En cambio, la sociedad espera de las universidades un impacto diferente. “Quiere ver resultados cada año, bajo la forma de admisión de nuevos alumnos y salida de profesionales capacitados, así como extensión e investigación de calidad. En el marco de la crisis sanitaria, esta presión ha generado un estrés enorme y las universidades se esmeraron para brindar respuestas a la sociedad”, dice.

Entre las universidades de investigación de Estados Unidos y Canadá el 40 % considera al factor de impacto como un criterio de promoción de los docentes

La evaluación de los programas de posgrado de la Capes está mutando para incluir más aspectos cualitativos. Algunos indicadores, como la cantidad de docentes y la de alumnos de maestría y doctorado, han perdido importancia para la evaluación cuatrienal que finaliza este año y ya no tendrán influencia en la calificación de las carreras. Solo serán tenidos en cuenta como indicativo para mantener el mínimo de personas trabajando en el programa. En tanto, la publicación de artículos de los docentes y alumnos vinculados a cada programa pasará a analizarse en tres niveles diferentes y solo el primero de ellos, el que mide la producción total, tendrá carácter cuantitativo. En los demás, se contemplará la revisión por pares para la evaluación de una selección de los trabajos de cada docente, así como los mejores elementos de la producción intelectual del programa; donde además de la producción científica, también se podrán seleccionar obras técnicas y artísticas. Para el científico de la información Rogério Mugnaini, de la Escuela de Comunicación y Artes de la USP, los cambios son interesantes. “Es una buena idea obligar a los docentes y a la coordinación de cada programa a realzar lo más relevante de la producción, porque reduce la importancia del volumen de producción en la evaluación del programa, desalentando el productivismo”, sostiene. Según él, aún es pronto para evaluar cuáles serán los efectos. “Lo ideal sería que estos modelos fueran probados durante un ciclo de evaluación y solo se los implementara en el siguiente, para verificar que funcionen bien”, dice. En el futuro, la Capes tiene prevista una modificación profunda de su sistema de evaluación, analizando los programas según cinco dimensiones diferentes (lea en Pesquisa FAPESP, edición nº 286). De acuerdo con Mugnaini, aún resta probar la combinación ideal entre los indicadores de cantidad y calidad, pero no cree que las métricas de la producción vayan a abandonarse. “La publicación de artículos es una parte esencial de la actividad científica y no creo que sea posible prescindir de ellos en un modelo de evaluación. Pero no hay duda de la importancia de mirar más allá del mero producto, estimulando el desarrollo de proyectos consistentes y duraderos, así como la participación en redes de colaboración”.

La FAPESP ha perfeccionado el proceso de evaluación de sus proyectos para garantizar un análisis basado en el mérito y la calidad. La modificación principal alude a los términos empleados en los formularios de presentación de proyectos, y sirven para reforzar las expectativas de la Fundación, tanto para quien envía propuestas como para quien las evalúa. En lugar de indagar cuáles fueron los artículos, libros o patentes del solicitante con mayor impacto, el foco ahora recae sobre los resultados científicos más trascendentes y sobre la capacidad del proyecto para multiplicar esa contribución y ampliar su alcance. “El objetivo es poner por delante la calidad del proyecto y garantizar que lo que se está evaluando en primera instancia es su contribución”, dice Cristovão de Albuquerque, gerente de Colaboración en Investigación de la FAPESP.

También ha habido un esfuerzo en cuanto a perfeccionar la revisión por pares. La Fundación ha realizado un video orientativo para los revisores apuntando a ayudarlos a elaborar un informe constructivo. “La idea es que sus dictámenes constituyen siempre un aporte para mejorar la propuesta y, en caso de denegarla, que la misma pueda rehacerse y volverse a presentar de una manera más consistente”, dice Albuquerque. La FAPESP, asevera, también les permite a los proponentes incluir relatos que informen sobre circunstancias relevantes de la vida para poder comprender su contribución. “Esto ayuda, por ejemplo, a las investigadoras que han sido madres y tuvieron que alejarse durante un tiempo”, concluye.

Proyecto
Indicadores de rendimiento en las universidades estaduales paulistas 2022 (nº 19/10963-7); Modalidad Investigación en Políticas Públicas; Investigador responsable Jacques Marcovitch (USP); Inversión R$ 614.583,66

Republicar

Republish