Imprimir Republish

Bibliometría

Cuidado con la marea

En un informe se plantean límites al uso de indicadores en la evaluación científica en el Reino Unido

Metrica_05_2JG0788Léo RamosEl debate sobre la confiabilidad de los métodos cuantitativos destinados a medir el impacto de la producción científica y académica tiene ahora un nuevo capítulo con la divulgación, en julio, de un informe solicitado por el Higher Education Funding Council for England (Hefce), el organismo encargado de financiar y evaluar el sistema universitario y de investigación de Inglaterra. Fruto de 15 meses de trabajo de un equipo interdisciplinario independiente, el documento intitulado The metric tide (la marea de las métricas) aborda la utilidad y el uso exagerado de indicadores en la evaluación del mérito de universidades y grupos de investigación. Frente a la constatación de que se han propagado parámetros tales como indicadores de impacto y rankings universitarios, el grupo sugiere prudencia en su utilización. “Las métricas deben seleccionarse con cuidado y deben suplementar y servir de apoyo siempre en el análisis a cargo de expertos, y no reemplazarlo”, dice Richard Jones, prorrector de Investigación e Innovación de la Universidad de Sheffield, miembro del panel que elaboró el documento.

El grupo planteó el concepto de “métrica responsable”, basado en cinco puntos. Uno de ellos es la humildad, entendida como el reconocimiento de que el análisis por pares, aunque sea imperfecto y esté sujeto a equívocos, es capaz de vislumbrar de manera amplia la calidad de la producción científica, algo que indicadores aislados aún no logran hacer. El segundo punto es la robustez, condición que excluye el uso de datos descontextualizados o no suficientemente representativos en un proceso de análisis por pares. Según el informe, el énfasis en parámetros “estrechos y mal diseñados” produce consecuencias negativas. Un ejemplo desaconsejable es la utilización del factor de impacto de una revista científica para definir la calidad de cualquier trabajo publicado en ella o el mérito de sus autores. Sucede que tales índices tan sólo reflejan medias observadas en conjuntos de artículos publicados en períodos anteriores. El documento también menciona el uso de citas de artículos como un criterio universal de calidad, sin contemplar las distintas realidades de las disciplinas.

El tercer punto es la transparencia, que asegura que el recabado de datos y sus análisis sean abiertos y comprensibles para los investigadores y la sociedad. La utilización masiva de rankings universitarios es criticada en el informe, con el argumento de que falta en muchos de ellos transparencia con respecto a la elección de indicadores. El cuarto punto es la diversidad, el esfuerzo para adoptar un conjunto de indicadores capaz de abarcar aspectos variados del aporte de los investigadores. Por último, el quinto elemento es la reflexividad, entendida como la preocupación de identificar con rápidamente los efectos indeseables que el uso de indicadores pueda generar y la disposición para corregirlos.

“La atracción por las métricas tiende a aumentar”, escribió en la revista Nature James Wilsdon, docente de la Universidad de Sussex y líder del panel que produjo el informe. Según el profesor, existen demandas crecientes con miras a evaluar la inversión pública en investigación y educación superior y, al mismo tiempo, la cantidad de datos sobre el desempeño científico y la capacidad de analizarlos se multiplicaron. “Las instituciones deben administrar sus estrategias de investigación y, simultáneamente, competir por prestigio, por estudiantes y por recursos.”

El tema es especialmente sensible en el Reino Unido, pues, cada cinco años, sus universidades y sus grupos de investigación se someten a un extenso proceso de evaluación que define la distribución de fondos públicos durante el período siguiente. El último de ellos, el Research Excellence Framework (REF 2014), fue dado a conocer por el Hefce en diciembre pasado. Ciento cincuenta y cuatro universidades pusieron en evaluación 1.911 apartados en 36 campos del conocimiento. Cada apartado presentado reunió un conjunto de trabajos científicos, estudios de caso, patentes, proyectos de investigación en marcha, información sobre el desempeño de investigadores e indicadores bibliométricos vinculados a un departamento o a un grupo de investigación, y la evaluación quedó a cargo de paneles de expertos. La calidad de la producción científica fue responsable del 65% de la evaluación, el impacto de la investigación fuera de la academia (una novedad del REF 2014) valió un 20%, y el ambiente de investigación, un 15%. La evaluación arrojó que el 30% de las universidades del Reino Unido se ubica como líderes mundiales, el 46% tiene un nivel internacional de excelencia, el 20% tiene reconocimiento internacional y el 3% reconocimiento únicamente nacional.

Metrica_06_2JG0774Léo RamosDiscrepancias
El equipo responsable del informe analizó los datos del REF 2014 y arribó a la conclusión de que no siempre indicadores individuales y análisis por pares producían  resultados convergentes. Se observaron discrepancias acentuadas, por ejemplo, en el desempeño de investigadores en inicio de carrera. De la misma manera, la cobertura de los indicadores se mostró desigual en los campos del conocimiento, con problemas específicos especialmente en el panel de Artes y Humanidades. En el informe se recomendó que el modelo actual del REF se mantenga, basado en la evaluación cualitativa realizada por expertos que, sin embargo, pueden considerar indicadores seleccionados de manera criteriosa. Y sugirió que se aumenten las inversiones en “investigación sobre la investigación”, para profundizar la comprensión acerca del uso de indicadores. El grupo también instituyó un premio al contrario, el Bad Metric Prize, para denunciar los usos inapropiados de indicadores cuantitativos. Los primeros premiados se conocerán el año que viene.

Mientras se elaboraba el informe, la comunidad científica británica quedó chocada con una tragedia relacionada con la presión ejercida sobre los investigadores por las métricas. Stefan Grimm, durante diez años docente de toxicología de la Facultad de Medicina del Imperial College, se suicidó a los 51 años de edad. Estaba deprimido debido al anuncio de su despido y dejó un e-mail relatando las sucesivas amenazas que sufrió de su superior para lograr un determinado nivel de financiamiento para su laboratorio, al cual no logró llegar. El Imperial College anunció la revisión de sus criterios de evaluación después del episodio, mencionado en la presentación del informe.

El documento solicitado por el Hefce se perfila con textos recientes que defienden ideas similares. Uno de ellos es el Manifiesto de Leiden sobre métricas de investigación, presentado en septiembre de 2014 durante la 19ª Conferencia Internacional de Indicadores en Ciencia y Tecnología, realizada en Leiden, en Holanda. Sus diez principios coinciden en buena medida con las recomendaciones del grupo británico. Hace referencia a la necesidad de transparencia en el análisis de datos y propone considerar las diferencias entre áreas en las prácticas de publicación y de citas, por ejemplo. Otra referencia es Dora, sigla para San Francisco declaration on research assessment, lanzada en diciembre de 2012 en un encuentro de la American Society for Cell Biology, que emite 18 recomendaciones para investigadores, instituciones, organismos de fomento y editores científicos. La principal de éstas plantea eliminar el uso del factor de impacto de revistas como indicador de la calidad de un artículo. Casi 600 instituciones científicas y 12.500 investigadores han firmado hasta ahora la declaración, y el informe del Hefce sugiere que instituciones y agencias se conviertan en signatarias de la declaración para orientar públicamente sus prácticas en el terreno de la evaluación.

La importancia de que el Reino Unido adopte ese tipo de actitud no es desdeñable. “Si bien la mayoría de los países aún está en la infancia de la discusión sobre evaluación, el Reino Unido está algunos pasos adelantado y aspira a salir de la adolescencia”, asevera Sergio Salles-Filho, docente de la Universidad de Campinas (Unicamp) y coordinador del Grupo de Estudios sobre Organización de la Investigación Científica y la Innovación (Geopi), que evaluó programas de la FAPESP. Salles-Filho sostiene que la inclusión de nuevos parámetros destinados a analizar la producción científica también se ve motivada por la necesidad de sofisticar la evaluación, midiendo aspectos diversos ligados a su impacto en la sociedad. “En determinadas áreas, lo más importante no es publicar artículos, sino producir manuales utilizados en la industria, promover cambios en las políticas públicas o cambiar las directrices de la política económica. Los procesos de evaluación se están transformando y dentro de 20 años serán muy diferentes.”

Metrica_08_2JG0830Léo RamosCiclo completo
Brasil ha avanzado en la ampliación de los criterios de evaluación. “Las agencias de fomento ya no se satisfacen con saber únicamente cuál es el impacto específico de un artículo científico y apuntan a hacer evaluaciones de ciclo completo, que acumulan información sobre el trabajo de investigadores y los resultados de programas para medir su contribución a largo plazo”, dice, en referencia al esfuerzo de la FAPESP y más recientemente de la Financiadora de Estudios y Proyectos (Finep) de sistematizar un proceso de recabado de datos que siga reuniendo información sobre los resultados de investigación en el transcurso del tiempo.

Rogério Mugnaini, docente de la Escuela de Comunicación y Artes (ECA) de la Universidad de São Paulo (USP), está estudiando la diversidad de criterios de evaluación de los programas de posgrado realizada por la Coordinación de Perfeccionamiento del Personal de Nivel Superior (Capes), basándose en todos los documentos propuestos por las áreas del conocimiento desde 1998. Y ha observado que las áreas recurren cada vez más a indicadores de impacto, aun cuando esos parámetros no sean valorizados por la cultura de la disciplina en cuestión. “Algunas áreas, tal como es el caso de la geografía, están adoptando el modelo de evaluación de las ciencias duras”, dice Mugnaini. “Como el volumen de títulos que debe evaluarse es muy extenso, existe una tendencia a la adopción de indicadores que soslaya sus limitaciones”. Para Salles-Filho, existen más aspectos que deben contemplarse en la evaluación de los programas de posgrado. “Se reciben 15 mil doctores por año en Brasil, pero no sabemos dónde están y qué están haciendo con el conocimiento y la experiencia que adquirieron en el doctorado, si están dirigiendo tesis, si trabajan en el sector público o en la iniciativa privada. Deberíamos tener una visión de los impactos sociales de la formación de posgrado”, dice.

Republicar