CIENTOMETRÍA

Un algoritmo estimula la revisión por pares constructiva y sin groserías

Dictámenes científicos irrespetuosos, genéricos e incluso discriminatorios comprometen la eficacia de la evaluación entre científicos

Cássia Roriz

“Me temo que este manuscrito puede contribuir no tanto al avance del campo del conocimiento, sino más bien a su caída.”

“¿Te dio un ataque cuando escribiste esa frase? Porque es lo que me pasó a mí mientras leía.”

“Este es un artículo que está luchando para no morirse.”

Los cáusticos y groseros comentarios anteriores, que nos hacen acordar a los insultos que circulan en las redes sociales, fueron retirados de dictámenes enviados a científicos después de que remitieron artículos para su publicación en revistas o en congresos científicos. Los autores esperaban que sus trabajos recibieran críticas constructivas, que les permitieran mejorar los puntos débiles y/o que señalaran nuevos caminos. Después de todo, los evaluadores son sus pares, es decir, científicos que trabajan en el mismo campo de conocimiento, que voluntariamente dedicaron su tiempo a leer versiones preliminares de los artículos de sus colegas. Sin embargo, en lugar de ayudar, estos evaluadores generaron una experiencia traumática, que puede resultar especialmente aterradora para los jóvenes autores que están tratando de encontrar su camino en la carrera académica.

Pero, al fin y al cabo, esas groseras frases no fueron escritas en vano. Sucede que fueron recopiladas en cuatro bases de datos abiertos por científicos informáticos del Instituto de Tecnología de Patna, en la India. Y forman parte de un conjunto de 2.716 frases pronunciadas en procesos de revisión por pares (algunas malhumoradas, otras educadas o neutras). Se utilizaron para crear un algoritmo, por ahora un prototipo, que si avanza podrá ser útil para editores y revisores que deseen analizar el tono y la calidad de sus evaluaciones en inglés y modificarlas, de hacerse necesario. Este trabajo es una parte del doctorado del científico de la computación Prabhat Kumar Bharti y salió publicado en febrero en la revista Scientometrics.

Para entrenar la herramienta, los investigadores indios utilizaron técnicas de lingüística computacional y establecieron dos categorías – constructividad y pulidez (lea en el recuadro) – con las cuales puede clasificarse una evaluación. En un primer momento, las frases fueron analizadas por cuatro anotadores humanos, quienes llegaron a un consenso del 88,27 % al clasificar los niveles de constructividad y del 83,49 % para los de pulidez. Una vez entrenado, el modelo computacional coincidió con la clasificación humana en el 87,4 % de las frases. El estudio señaló que, en general, cuanto más constructivo es el comentario, más educado también tiende a ser.

No es ninguna novedad que las grandes bases de datos científicos se utilizan para desarrollar y perfeccionar algoritmos y herramientas: en Brasil, la información proveniente de la plataforma de currículums Lattes, analizadas computacionalmente, se utilizan para ampliar la comprensión sobre la actividad científica en el país, así como para señalar tendencias (lea en Pesquisa FAPESP n° 233). Bharti explicó en su perfil de LinkedIn que el propósito de la línea de investigación es precisamente extraer nuevos conocimientos a partir de una gran cantidad de contenidos académicos. Junto a sus colaboradores destaca el potencial del modelo que desarrollaron en un sistema de comunicación científica que reúne más de 70 mil revistas con artículos científicos revisados por pares (alrededor de 2 millones de manuscritos analizados por año). Más que facilitar el trabajo de los científicos evaluadores, uno de los objetivos del estudio, según los autores, es concientizar sobre los daños causados por los juicios destructivos. “Algunos evaluadores han demostrado un comportamiento poco profesional, haciendo comentarios despectivos sobre el género, la raza, el origen étnico y el país de origen del autor”, escribieron.

El científico de la computación Jesús Mena-Chalco, de la Universidad Federal del ABC (UFABC), sostiene que la creación de herramientas como la propuesta por el grupo indio puede ser útil como primer filtro para los editores que tienen un gran volumen de dictámenes que evaluar. Relata que una vez fue víctima de un comentario que le exigió de manera grosera que presentase un certificado de revisión profesional del idioma inglés de su artículo. “Reconocí la necesidad de mejorar el trabajo, pero la sugerencia podría haber sido hecha de otra manera. Hay maneras de pedir: algunos nos van a estimular, mientras que otros harán lo contrario”, comenta.

Para la lingüista María José Borcony Finatto, de la Universidad Federal de Rio Grande do Sul (UFRGS) y especialista en lingüística computacional, la propuesta de los indios arroja luz sobre un problema crucial en la revisión por pares. “Este tema debe debatirse en diferentes ambientes, desde las revistas hasta las agencias científicas de fomento”, afirma la investigadora, quien también ya recibió una evaluación inapropiada y grosera. “El mensaje fue desagradable y me atacaba como mujer investigadora”, recuerda.

La magnitud de este problema ya ha sido investigada en otros estudios. Un artículo publicado en 2019 mostró que el 58 % de 1.106 investigadores de 46 países dijeron haber recibido al menos una evaluación no profesional por parte de una revista científica. Algunos de los participantes, todos de las áreas de ciencia, tecnología, ingeniería y matemática (CTIM), compartieron fragmentos de estas evaluaciones, tales como: “Fulano de tal intentó lo mismo en los años 1990 y fracasó, pero era más creativo que tú”; “Este artículo es, sencillamente, estiércol”; “La condición del autor como persona trans distorsionó su visión del sexo más allá de la realidad biológica”. Este estudio de 2019 midió la percepción de los investigadores sobre los impactos de estos comentarios en tres aspectos: aptitud científica (confianza como científico), productividad (publicaciones por año) y progreso profesional (capacidad para avanzar dentro del campo). Los resultados indicaron que los hombres blancos eran más propensos a decir que la opinión no les afectaba que los hombres negros, las mujeres y las personas no binarias blancas y negras. En otras palabras, los autores arribaron a la conclusión de que las investigadoras, y los investigadores de grupos minoritarios, parecen sentirse más afectados por estas evaluaciones groseras.

Cássia Roriz

En busca de modelos constructivos
Si bien es cierto que la mayoría de las revistas científicas tienen orientaciones para guiar la evaluación por pares, no garantizan que el resultado sea constructivo ni profesional, según reflexiona la lingüista Márcia Sipavicius Seide, de la Universidad Estadual del Oeste de Paraná (Unioeste), editora de la revista Onomástica desde América Latina. Desde 2020, ella coordina grupos de redacción y cursos de formación para editores como actividad de extensión universitaria y, en ocasiones, monitorea los dictámenes recibidos por los participantes sobre los artículos que fueron enviados para publicación. “Algunos comentarios son rudos y no apuntan nuevas perspectivas. Si el dictamen no señala lo que está equivocado en el trabajo y simplemente lo rechaza, el autor no sabrá por dónde ir, lo que implica en una pérdida para la ciencia en general”.

Esta percepción la motivó a crear modelos para evaluar la calidad de los dictámenes científicos basados en rótulos, es decir, conjuntos de criterios utilizados para medir el desempeño de un texto escrito a través de calificaciones, como ocurre en las redacciones de ingreso a la universidad. El objetivo es que estos criterios sean pedagógicos, adecuados, justificados y señalen caminos para la investigación, en cualquier área del conocimiento. Seide propuso tres modelos: de aprobación condicional de un artículo, en el que es necesario realizar ajustes; de desaprobación, cuando el trabajo no será aceptado, y de aprobación directa, sin ajustes. Cada uno tiene cuatro criterios y cinco niveles, y suman entre 10 y 20 puntos: cuantos más puntos se obtienen, mejor será la calidad del análisis. Fueron descritos en un artículo publicado en julio de 2023 en la Revista Meta: Evaluación.

En el caso de aceptación condicional, uno de los criterios para que la evaluación sea buena considera si el evaluador se dirige al autor, si le hace preguntas y le explica qué se puede hacer para mejorar el texto. Por otra parte, “el texto de negación debe ser cortés, educado y no descalificar a quien escribió el manuscrito. Y el de aprobación directa suma más puntos si justifica el elogio, declarando por qué el trabajo fue bien considerado”, explica. Para la lingüista, evaluar un artículo es un proceso subjetivo, entonces los rótulos pueden dejarlo más transparente. Desde 2023, él está utilizando dicha metodología para evaluar los comentarios de los revisores de la revista Onomástica. “Siempre confirmo si la evaluación, cuando apunta defectos, hace también sugerencias encaminadas a resolver lo que se identificó como un punto problemático en el artículo. Me importa que el autor se sienta motivado para seguir escribiendo”.

Para minimizar estos problemas existen publicaciones que buscan resaltar el trabajo de los buenos evaluadores. Desde 2008, American Physical sociedad (APS) reconoce alrededor de 150 evaluadores “que han sido excepcionalmente útiles en el análisis de manuscritos para su publicación en revistas de APS”, según el sitio web de la institución, que cuenta con una base de 91.600 evaluadores activos. En 2024, entre los 156 investigadores de 58 países destacados como Outstanding referees se encuentra el físico Paulo Campos, de la Universidad Federal de Pernambuco (UFPE), el único brasileño en la lista de este año. Para Campos, el camino de la crítica constructiva consiste en apuntar caminos para que el artículo sea mejorado. “Si presenta potencial de aprobación, es necesario señalar caminos y lagunas. Si se le negará la aprobación, hay que señalar los problemas”, observa el físico, que es evaluador de revistas de la APS desde 2001. Considera fundamental el papel del editor científico a la hora de filtrar comentarios agresivos y solicitar aportes complementarios para los que no son constructivos.

El editor de revistas del área de odontología, Sigmar de Mello Rode, explica que a menudo es necesario reformular los dictámenes o incluso demandar más explicaciones a los evaluadores que no respaldan adecuadamente sus sugerencias. Rode, investigador de la Universidade Estadual Paulista (Unesp), es presidente de la Asociación Brasileña de Editores Científicos (Abec-Brasil), que creó un curso para evaluadores de artículos científicos. La iniciativa trabaja el paso a paso de lo que es necesario observar para realizar un análisis crítico y correcto. “Tuvimos más de 550 personas inscritas en dos años de curso y notamos que existe una demanda por saber cómo hacer una buena evaluación, porque muchas veces la información que le ofrecen las revistas a los evaluadores resulta insuficiente”, dice Rode.

“Todavía se discute poco con relación a las sombras del proceso de la revisión por pares, al cual muchas veces los autores no tienen acceso”, comenta el especialista en tecnología y medios digitales Alex Mendonça, coordinador del servidor SciELO Preprints. De acuerdo con su experiencia, es común recibir de los editores de revistas hospedadas en la biblioteca SciELO relatos sobre problemas con evaluaciones destructivas o demasiado sucintas. “No existe una solución milagrosa para afrontar esta situación, pero hemos aceptado migrar hacia la ciencia abierta incluyendo la revisión por pares. A medida que los dictámenes se vayan volviendo públicos, los evaluadores pensarán más de una vez antes de escribir comentarios rudos y prejuiciosos”. En Brasil, destaca el ejemplo de Bakhtiniana: Revista de Estudos do Discurso, que pasó a adjuntarle al contenido de los artículos recibidos el análisis crítico de los evaluadores, mostrando su identidad. Eventualmente, el comentario puede recibir un DOI (Digital Object Identifier), identificador único para documentos digitales. “De esta manera, puede incluírselo en el currículum del evaluador, valorizando su trabajo y estimulándolo a elaborar un dictamen constructivo”, explica Mendonça.

Alexandre Affonso / Revista Pesquisa FAPESP

Artículos científicos
BHARTI, P. K. et al. Please be polite to your peers: A multi task model for assessing the tone and objectivity of critiques of peer review comments. Scientometrics. feb. 2024
SILBIGER, N. J. y STUBLER, A. D. Unprofessional peer reviews disproportionately harm underrepresented groups in stem. PeerJ. 7: e8247. dic. 2019.
SEIDE, M. S. Rubricas de avaliação de parecer científico. Revista Meta: Avaliação, v. 15, n. 48, p. 620-40. jul. 2023.

Republicar

Republish

This article may be republished online under the CC-BY-NC-ND Creative Commons license. The Pesquisa FAPESP Digital Content Republishing Policy, specified here, must be followed. In summary, the text must not be edited and the author(s) and source (Pesquisa FAPESP) must be credited. Using the HTML button will ensure that these standards are followed. If reproducing only the text, please consult the Digital Republishing Policy.

Un algoritmo estimula la revisión por pares constructiva y sin groseríasDictámenes científicos irrespetuosos, genéricos e incluso discriminatorios comprometen la eficacia de la evaluación entre científicos

Sarah Schmidt, da Revista Pesquisa FAPESP<p><em></em></p><div class="alignright generated vertical"><em><img fetchpriority="high" decoding="async" width="800" height="938" class="size-full wp-image-531502" src="https://revistapesquisa.fapesp.br/wp-content/uploads/2024/09/rpf-criticas-construtivas-2024-05-800.jpg" alt="" srcset="https://revistapesquisa.fapesp.br/wp-content/uploads/2024/09/rpf-criticas-construtivas-2024-05-800.jpg 800w, https://revistapesquisa.fapesp.br/wp-content/uploads/2024/09/rpf-criticas-construtivas-2024-05-800-250x293.jpg 250w, https://revistapesquisa.fapesp.br/wp-content/uploads/2024/09/rpf-criticas-construtivas-2024-05-800-700x821.jpg 700w, https://revistapesquisa.fapesp.br/wp-content/uploads/2024/09/rpf-criticas-construtivas-2024-05-800-120x141.jpg 120w" sizes="(max-width: 800px) 100vw, 800px"><span class="media-credits-inline">Cássia Roriz</span></em></div><em>“Me temo que este manuscrito puede contribuir no tanto al avance del campo del conocimiento, sino más bien a su caída.”</em><p></p><p><em>“¿Te dio un ataque cuando escribiste esa frase? Porque es lo que me pasó a mí mientras leía.” </em></p><p><em>“Este es un artículo que está luchando para no morirse.”</em></p><p>Los cáusticos y groseros comentarios anteriores, que nos hacen acordar a los insultos que circulan en las redes sociales, fueron retirados de dictámenes enviados a científicos después de que remitieron artículos para su publicación en revistas o en congresos científicos. Los autores esperaban que sus trabajos recibieran críticas constructivas, que les permitieran mejorar los puntos débiles y/o que señalaran nuevos caminos. Después de todo, los evaluadores son sus pares, es decir, científicos que trabajan en el mismo campo de conocimiento, que voluntariamente dedicaron su tiempo a leer versiones preliminares de los artículos de sus colegas. Sin embargo, en lugar de ayudar, estos evaluadores generaron una experiencia traumática, que puede resultar especialmente aterradora para los jóvenes autores que están tratando de encontrar su camino en la carrera académica.</p><p>Pero, al fin y al cabo, esas groseras frases no fueron escritas en vano. Sucede que fueron recopiladas en cuatro bases de datos abiertos por científicos informáticos del Instituto de Tecnología de Patna, en la India. Y forman parte de un conjunto de 2.716 frases pronunciadas en procesos de revisión por pares (algunas malhumoradas, otras educadas o neutras). Se utilizaron para crear un algoritmo, por ahora un prototipo, que si avanza podrá ser útil para editores y revisores que deseen analizar el tono y la calidad de sus evaluaciones en inglés y modificarlas, de hacerse necesario. Este trabajo es una parte del doctorado del científico de la computación Prabhat Kumar Bharti y salió publicado en febrero en la revista <em>Scientometrics</em>.</p><p>Para entrenar la herramienta, los investigadores indios utilizaron técnicas de lingüística computacional y establecieron dos categorías – constructividad y pulidez (<a href="#humor-revisores"><em>lea en el recuadro</em></a>) – con las cuales puede clasificarse una evaluación. En un primer momento, las frases fueron analizadas por cuatro anotadores humanos, quienes llegaron a un consenso del 88,27 % al clasificar los niveles de constructividad y del 83,49 % para los de pulidez. Una vez entrenado, el modelo computacional coincidió con la clasificación humana en el 87,4 % de las frases. El estudio señaló que, en general, cuanto más constructivo es el comentario, más educado también tiende a ser.</p><p>No es ninguna novedad que las grandes bases de datos científicos se utilizan para desarrollar y perfeccionar algoritmos y herramientas: en Brasil, la información proveniente de la plataforma de currículums Lattes, analizadas computacionalmente, se utilizan para ampliar la comprensión sobre la actividad científica en el país, así como para señalar tendencias (<a href="https://revistapesquisa.fapesp.br/es/registros-valiosos/" target="_blank" rel="noopener"><em>lea </em>en Pesquisa FAPESP <em>n° 233</em></a>). Bharti explicó en su perfil de LinkedIn que el propósito de la línea de investigación es precisamente extraer nuevos conocimientos a partir de una gran cantidad de contenidos académicos. Junto a sus colaboradores destaca el potencial del modelo que desarrollaron en un sistema de comunicación científica que reúne más de 70 mil revistas con artículos científicos revisados por pares (alrededor de 2 millones de manuscritos analizados por año). Más que facilitar el trabajo de los científicos evaluadores, uno de los objetivos del estudio, según los autores, es concientizar sobre los daños causados por los juicios destructivos. “Algunos evaluadores han demostrado un comportamiento poco profesional, haciendo comentarios despectivos sobre el género, la raza, el origen étnico y el país de origen del autor”, escribieron.</p><p>El científico de la computación Jesús Mena-Chalco, de la Universidad Federal del ABC (UFABC), sostiene que la creación de herramientas como la propuesta por el grupo indio puede ser útil como primer filtro para los editores que tienen un gran volumen de dictámenes que evaluar. Relata que una vez fue víctima de un comentario que le exigió de manera grosera que presentase un certificado de revisión profesional del idioma inglés de su artículo. “Reconocí la necesidad de mejorar el trabajo, pero la sugerencia podría haber sido hecha de otra manera. Hay maneras de pedir: algunos nos van a estimular, mientras que otros harán lo contrario”, comenta.</p><p>Para la lingüista María José Borcony Finatto, de la Universidad Federal de Rio Grande do Sul (UFRGS) y especialista en lingüística computacional, la propuesta de los indios arroja luz sobre un problema crucial en la revisión por pares. “Este tema debe debatirse en diferentes ambientes, desde las revistas hasta las agencias científicas de fomento”, afirma la investigadora, quien también ya recibió una evaluación inapropiada y grosera. “El mensaje fue desagradable y me atacaba como mujer investigadora”, recuerda.</p><p>La magnitud de este problema ya ha sido investigada en otros estudios. Un artículo publicado en 2019 mostró que el 58 % de 1.106 investigadores de 46 países dijeron haber recibido al menos una evaluación no profesional por parte de una revista científica. Algunos de los participantes, todos de las áreas de ciencia, tecnología, ingeniería y matemática (CTIM), compartieron fragmentos de estas evaluaciones, tales como: “Fulano de tal intentó lo mismo en los años 1990 y fracasó, pero era más creativo que tú”; “Este artículo es, sencillamente, estiércol”; “La condición del autor como persona trans distorsionó su visión del sexo más allá de la realidad biológica”. Este estudio de 2019 midió la percepción de los investigadores sobre los impactos de estos comentarios en tres aspectos: aptitud científica (confianza como científico), productividad (publicaciones por año) y progreso profesional (capacidad para avanzar dentro del campo). Los resultados indicaron que los hombres blancos eran más propensos a decir que la opinión no les afectaba que los hombres negros, las mujeres y las personas no binarias blancas y negras. En otras palabras, los autores arribaron a la conclusión de que las investigadoras, y los investigadores de grupos minoritarios, parecen sentirse más afectados por estas evaluaciones groseras.</p><p></p><div class="aligncenter generated"><img decoding="async" width="1140" height="616" class="size-full wp-image-531506" src="https://revistapesquisa.fapesp.br/wp-content/uploads/2024/09/rpf-criticas-construtivas-2024-05-1140.jpg" alt="" srcset="https://revistapesquisa.fapesp.br/wp-content/uploads/2024/09/rpf-criticas-construtivas-2024-05-1140.jpg 1140w, https://revistapesquisa.fapesp.br/wp-content/uploads/2024/09/rpf-criticas-construtivas-2024-05-1140-250x135.jpg 250w, https://revistapesquisa.fapesp.br/wp-content/uploads/2024/09/rpf-criticas-construtivas-2024-05-1140-700x378.jpg 700w, https://revistapesquisa.fapesp.br/wp-content/uploads/2024/09/rpf-criticas-construtivas-2024-05-1140-120x65.jpg 120w" sizes="(max-width: 1140px) 100vw, 1140px"><span class="media-credits-inline">Cássia Roriz</span></div><p></p><p><strong>En busca de modelos constructivos<br> </strong>Si bien es cierto que la mayoría de las revistas científicas tienen orientaciones para guiar la evaluación por pares, no garantizan que el resultado sea constructivo ni profesional, según reflexiona la lingüista Márcia Sipavicius Seide, de la Universidad Estadual del Oeste de Paraná (Unioeste), editora de la revista <em>Onomástica desde América Latina</em>. Desde 2020, ella coordina grupos de redacción y cursos de formación para editores como actividad de extensión universitaria y, en ocasiones, monitorea los dictámenes recibidos por los participantes sobre los artículos que fueron enviados para publicación. “Algunos comentarios son rudos y no apuntan nuevas perspectivas. Si el dictamen no señala lo que está equivocado en el trabajo y simplemente lo rechaza, el autor no sabrá por dónde ir, lo que implica en una pérdida para la ciencia en general”.</p><p>Esta percepción la motivó a crear modelos para evaluar la calidad de los dictámenes científicos basados en rótulos, es decir, conjuntos de criterios utilizados para medir el desempeño de un texto escrito a través de calificaciones, como ocurre en las redacciones de ingreso a la universidad. El objetivo es que estos criterios sean pedagógicos, adecuados, justificados y señalen caminos para la investigación, en cualquier área del conocimiento. Seide propuso tres modelos: de aprobación condicional de un artículo, en el que es necesario realizar ajustes; de desaprobación, cuando el trabajo no será aceptado, y de aprobación directa, sin ajustes. Cada uno tiene cuatro criterios y cinco niveles, y suman entre 10 y 20 puntos: cuantos más puntos se obtienen, mejor será la calidad del análisis. Fueron descritos en un artículo publicado en julio de 2023 en la <em>Revista</em> <em>Meta: Evaluación</em>.</p><p>En el caso de aceptación condicional, uno de los criterios para que la evaluación sea buena considera si el evaluador se dirige al autor, si le hace preguntas y le explica qué se puede hacer para mejorar el texto. Por otra parte, “el texto de negación debe ser cortés, educado y no descalificar a quien escribió el manuscrito. Y el de aprobación directa suma más puntos si justifica el elogio, declarando por qué el trabajo fue bien considerado”, explica. Para la lingüista, evaluar un artículo es un proceso subjetivo, entonces los rótulos pueden dejarlo más transparente. Desde 2023, él está utilizando dicha metodología para evaluar los comentarios de los revisores de la revista <em>Onomástica</em>. “Siempre confirmo si la evaluación, cuando apunta defectos, hace también sugerencias encaminadas a resolver lo que se identificó como un punto problemático en el artículo. Me importa que el autor se sienta motivado para seguir escribiendo”.</p><p>Para minimizar estos problemas existen publicaciones que buscan resaltar el trabajo de los buenos evaluadores. Desde 2008, <em>American Physical sociedad </em>(APS) reconoce alrededor de 150 evaluadores “que han sido excepcionalmente útiles en el análisis de manuscritos para su publicación en revistas <em>de APS</em>”, según el sitio web de la institución, que cuenta con una base de 91.600 evaluadores activos. En 2024, entre los 156 investigadores de 58 países destacados como <em>Outstanding referees</em> se encuentra el físico Paulo Campos, de la Universidad Federal de Pernambuco (UFPE), el único brasileño en la lista de este año. Para Campos, el camino de la crítica constructiva consiste en apuntar caminos para que el artículo sea mejorado. “Si presenta potencial de aprobación, es necesario señalar caminos y lagunas. Si se le negará la aprobación, hay que señalar los problemas”, observa el físico, que es evaluador de revistas <em>de la APS </em>desde 2001. Considera fundamental el papel del editor científico a la hora de filtrar comentarios agresivos y solicitar aportes complementarios para los que no son constructivos.</p><p>El editor de revistas del área de odontología, Sigmar de Mello Rode, explica que a menudo es necesario reformular los dictámenes o incluso demandar más explicaciones a los evaluadores que no respaldan adecuadamente sus sugerencias. Rode, investigador de la Universidade Estadual Paulista (Unesp), es presidente de la Asociación Brasileña de Editores Científicos (Abec-Brasil), que creó un curso para evaluadores de artículos científicos. La iniciativa trabaja el paso a paso de lo que es necesario observar para realizar un análisis crítico y correcto. “Tuvimos más de 550 personas inscritas en dos años de curso y notamos que existe una demanda por saber cómo hacer una buena evaluación, porque muchas veces la información que le ofrecen las revistas a los evaluadores resulta insuficiente”, dice Rode.</p><p>“Todavía se discute poco con relación a las sombras del proceso de la revisión por pares, al cual muchas veces los autores no tienen acceso”, comenta el especialista en tecnología y medios digitales Alex Mendonça, coordinador del servidor SciELO Preprints. De acuerdo con su experiencia, es común recibir de los editores de revistas hospedadas en la biblioteca SciELO relatos sobre problemas con evaluaciones destructivas o demasiado sucintas. “No existe una solución milagrosa para afrontar esta situación, pero hemos aceptado migrar hacia la ciencia abierta incluyendo la revisión por pares. A medida que los dictámenes se vayan volviendo públicos, los evaluadores pensarán más de una vez antes de escribir comentarios rudos y prejuiciosos”. En Brasil, destaca el ejemplo de <em>Bakhtiniana: Revista de Estudos do Discurso</em>, que pasó a adjuntarle al contenido de los artículos recibidos el análisis crítico de los evaluadores, mostrando su identidad. Eventualmente, el comentario puede recibir un DOI (<em>Digital Object Identifier</em>), identificador único para documentos digitales. “De esta manera, puede incluírselo en el currículum del evaluador, valorizando su trabajo y estimulándolo a elaborar un dictamen constructivo”, explica Mendonça.<a name="humor-revisores"></a></p><p class="bibliografia separador-bibliografia"><strong>Artículos científicos<br> </strong>BHARTI, P. K. <em>et al.</em> <a href="https://link.springer.com/article/10.1007/s11192-024-04938-z" target="_blank" rel="noopener">Please be polite to your peers: A multi task model for assessing the tone and objectivity of critiques of peer review comments</a>. <strong>Scientometrics</strong>. feb. 2024<br> SILBIGER, N. J. y STUBLER, A. D. <a href="https://peerj.com/articles/8247/?ref=mainstreem-dotcom" target="_blank" rel="noopener">Unprofessional peer reviews disproportionately harm underrepresented groups in stem</a>. <strong>PeerJ</strong>. 7: e8247. dic. 2019.<br> SEIDE, M. S. <a href="https://revistas.cesgranrio.org.br/index.php/metaavaliacao/article/view/3994" target="_blank" rel="noopener">Rubricas de avaliação de parecer científico</a>. <strong>Revista Meta: Avaliação</strong>, v. 15, n. 48, p. 620-40. jul. 2023.</p><br><p>This work first appeared on <a href='https://revistapesquisa.fapesp.br/'>Pesquisa FAPESP</a> under a <a href='https://creativecommons.org/licenses/by-nd/4.0/'>CC-BY-NC-ND 4.0 license</a>. Read the <a href='https://revistapesquisa.fapesp.br/es/un-algoritmo-estimula-la-revision-por-pares-constructiva-y-sin-groserias/' target='_blank'>original here</a>.</p><script>var img = new Image(); img.src='https://revistapesquisa.fapesp.br/republicacao_frame?id=531497&referer=' + window.location.href;</script>

Un algoritmo estimula la revisión por pares constructiva y sin groseríasDictámenes científicos irrespetuosos, genéricos e incluso discriminatorios comprometen la eficacia de la evaluación entre científicos

Sarah Schmidt, da Revista Pesquisa FAPESP

Cássia Roriz“Me temo que este manuscrito puede contribuir no tanto al avance del campo del conocimiento, sino más bien a su caída.”

“¿Te dio un ataque cuando escribiste esa frase? Porque es lo que me pasó a mí mientras leía.” 

“Este es un artículo que está luchando para no morirse.”

Los cáusticos y groseros comentarios anteriores, que nos hacen acordar a los insultos que circulan en las redes sociales, fueron retirados de dictámenes enviados a científicos después de que remitieron artículos para su publicación en revistas o en congresos científicos. Los autores esperaban que sus trabajos recibieran críticas constructivas, que les permitieran mejorar los puntos débiles y/o que señalaran nuevos caminos. Después de todo, los evaluadores son sus pares, es decir, científicos que trabajan en el mismo campo de conocimiento, que voluntariamente dedicaron su tiempo a leer versiones preliminares de los artículos de sus colegas. Sin embargo, en lugar de ayudar, estos evaluadores generaron una experiencia traumática, que puede resultar especialmente aterradora para los jóvenes autores que están tratando de encontrar su camino en la carrera académica.

Pero, al fin y al cabo, esas groseras frases no fueron escritas en vano. Sucede que fueron recopiladas en cuatro bases de datos abiertos por científicos informáticos del Instituto de Tecnología de Patna, en la India. Y forman parte de un conjunto de 2.716 frases pronunciadas en procesos de revisión por pares (algunas malhumoradas, otras educadas o neutras). Se utilizaron para crear un algoritmo, por ahora un prototipo, que si avanza podrá ser útil para editores y revisores que deseen analizar el tono y la calidad de sus evaluaciones en inglés y modificarlas, de hacerse necesario. Este trabajo es una parte del doctorado del científico de la computación Prabhat Kumar Bharti y salió publicado en febrero en la revista Scientometrics.

Para entrenar la herramienta, los investigadores indios utilizaron técnicas de lingüística computacional y establecieron dos categorías – constructividad y pulidez (lea en el recuadro) – con las cuales puede clasificarse una evaluación. En un primer momento, las frases fueron analizadas por cuatro anotadores humanos, quienes llegaron a un consenso del 88,27 % al clasificar los niveles de constructividad y del 83,49 % para los de pulidez. Una vez entrenado, el modelo computacional coincidió con la clasificación humana en el 87,4 % de las frases. El estudio señaló que, en general, cuanto más constructivo es el comentario, más educado también tiende a ser.

No es ninguna novedad que las grandes bases de datos científicos se utilizan para desarrollar y perfeccionar algoritmos y herramientas: en Brasil, la información proveniente de la plataforma de currículums Lattes, analizadas computacionalmente, se utilizan para ampliar la comprensión sobre la actividad científica en el país, así como para señalar tendencias (lea en Pesquisa FAPESP n° 233). Bharti explicó en su perfil de LinkedIn que el propósito de la línea de investigación es precisamente extraer nuevos conocimientos a partir de una gran cantidad de contenidos académicos. Junto a sus colaboradores destaca el potencial del modelo que desarrollaron en un sistema de comunicación científica que reúne más de 70 mil revistas con artículos científicos revisados por pares (alrededor de 2 millones de manuscritos analizados por año). Más que facilitar el trabajo de los científicos evaluadores, uno de los objetivos del estudio, según los autores, es concientizar sobre los daños causados por los juicios destructivos. “Algunos evaluadores han demostrado un comportamiento poco profesional, haciendo comentarios despectivos sobre el género, la raza, el origen étnico y el país de origen del autor”, escribieron.

El científico de la computación Jesús Mena-Chalco, de la Universidad Federal del ABC (UFABC), sostiene que la creación de herramientas como la propuesta por el grupo indio puede ser útil como primer filtro para los editores que tienen un gran volumen de dictámenes que evaluar. Relata que una vez fue víctima de un comentario que le exigió de manera grosera que presentase un certificado de revisión profesional del idioma inglés de su artículo. “Reconocí la necesidad de mejorar el trabajo, pero la sugerencia podría haber sido hecha de otra manera. Hay maneras de pedir: algunos nos van a estimular, mientras que otros harán lo contrario”, comenta.

Para la lingüista María José Borcony Finatto, de la Universidad Federal de Rio Grande do Sul (UFRGS) y especialista en lingüística computacional, la propuesta de los indios arroja luz sobre un problema crucial en la revisión por pares. “Este tema debe debatirse en diferentes ambientes, desde las revistas hasta las agencias científicas de fomento”, afirma la investigadora, quien también ya recibió una evaluación inapropiada y grosera. “El mensaje fue desagradable y me atacaba como mujer investigadora”, recuerda.

La magnitud de este problema ya ha sido investigada en otros estudios. Un artículo publicado en 2019 mostró que el 58 % de 1.106 investigadores de 46 países dijeron haber recibido al menos una evaluación no profesional por parte de una revista científica. Algunos de los participantes, todos de las áreas de ciencia, tecnología, ingeniería y matemática (CTIM), compartieron fragmentos de estas evaluaciones, tales como: “Fulano de tal intentó lo mismo en los años 1990 y fracasó, pero era más creativo que tú”; “Este artículo es, sencillamente, estiércol”; “La condición del autor como persona trans distorsionó su visión del sexo más allá de la realidad biológica”. Este estudio de 2019 midió la percepción de los investigadores sobre los impactos de estos comentarios en tres aspectos: aptitud científica (confianza como científico), productividad (publicaciones por año) y progreso profesional (capacidad para avanzar dentro del campo). Los resultados indicaron que los hombres blancos eran más propensos a decir que la opinión no les afectaba que los hombres negros, las mujeres y las personas no binarias blancas y negras. En otras palabras, los autores arribaron a la conclusión de que las investigadoras, y los investigadores de grupos minoritarios, parecen sentirse más afectados por estas evaluaciones groseras.

Cássia Roriz

En busca de modelos constructivos Si bien es cierto que la mayoría de las revistas científicas tienen orientaciones para guiar la evaluación por pares, no garantizan que el resultado sea constructivo ni profesional, según reflexiona la lingüista Márcia Sipavicius Seide, de la Universidad Estadual del Oeste de Paraná (Unioeste), editora de la revista Onomástica desde América Latina. Desde 2020, ella coordina grupos de redacción y cursos de formación para editores como actividad de extensión universitaria y, en ocasiones, monitorea los dictámenes recibidos por los participantes sobre los artículos que fueron enviados para publicación. “Algunos comentarios son rudos y no apuntan nuevas perspectivas. Si el dictamen no señala lo que está equivocado en el trabajo y simplemente lo rechaza, el autor no sabrá por dónde ir, lo que implica en una pérdida para la ciencia en general”.

Esta percepción la motivó a crear modelos para evaluar la calidad de los dictámenes científicos basados en rótulos, es decir, conjuntos de criterios utilizados para medir el desempeño de un texto escrito a través de calificaciones, como ocurre en las redacciones de ingreso a la universidad. El objetivo es que estos criterios sean pedagógicos, adecuados, justificados y señalen caminos para la investigación, en cualquier área del conocimiento. Seide propuso tres modelos: de aprobación condicional de un artículo, en el que es necesario realizar ajustes; de desaprobación, cuando el trabajo no será aceptado, y de aprobación directa, sin ajustes. Cada uno tiene cuatro criterios y cinco niveles, y suman entre 10 y 20 puntos: cuantos más puntos se obtienen, mejor será la calidad del análisis. Fueron descritos en un artículo publicado en julio de 2023 en la Revista Meta: Evaluación.

En el caso de aceptación condicional, uno de los criterios para que la evaluación sea buena considera si el evaluador se dirige al autor, si le hace preguntas y le explica qué se puede hacer para mejorar el texto. Por otra parte, “el texto de negación debe ser cortés, educado y no descalificar a quien escribió el manuscrito. Y el de aprobación directa suma más puntos si justifica el elogio, declarando por qué el trabajo fue bien considerado”, explica. Para la lingüista, evaluar un artículo es un proceso subjetivo, entonces los rótulos pueden dejarlo más transparente. Desde 2023, él está utilizando dicha metodología para evaluar los comentarios de los revisores de la revista Onomástica. “Siempre confirmo si la evaluación, cuando apunta defectos, hace también sugerencias encaminadas a resolver lo que se identificó como un punto problemático en el artículo. Me importa que el autor se sienta motivado para seguir escribiendo”.

Para minimizar estos problemas existen publicaciones que buscan resaltar el trabajo de los buenos evaluadores. Desde 2008, American Physical sociedad (APS) reconoce alrededor de 150 evaluadores “que han sido excepcionalmente útiles en el análisis de manuscritos para su publicación en revistas de APS”, según el sitio web de la institución, que cuenta con una base de 91.600 evaluadores activos. En 2024, entre los 156 investigadores de 58 países destacados como Outstanding referees se encuentra el físico Paulo Campos, de la Universidad Federal de Pernambuco (UFPE), el único brasileño en la lista de este año. Para Campos, el camino de la crítica constructiva consiste en apuntar caminos para que el artículo sea mejorado. “Si presenta potencial de aprobación, es necesario señalar caminos y lagunas. Si se le negará la aprobación, hay que señalar los problemas”, observa el físico, que es evaluador de revistas de la APS desde 2001. Considera fundamental el papel del editor científico a la hora de filtrar comentarios agresivos y solicitar aportes complementarios para los que no son constructivos.

El editor de revistas del área de odontología, Sigmar de Mello Rode, explica que a menudo es necesario reformular los dictámenes o incluso demandar más explicaciones a los evaluadores que no respaldan adecuadamente sus sugerencias. Rode, investigador de la Universidade Estadual Paulista (Unesp), es presidente de la Asociación Brasileña de Editores Científicos (Abec-Brasil), que creó un curso para evaluadores de artículos científicos. La iniciativa trabaja el paso a paso de lo que es necesario observar para realizar un análisis crítico y correcto. “Tuvimos más de 550 personas inscritas en dos años de curso y notamos que existe una demanda por saber cómo hacer una buena evaluación, porque muchas veces la información que le ofrecen las revistas a los evaluadores resulta insuficiente”, dice Rode.

“Todavía se discute poco con relación a las sombras del proceso de la revisión por pares, al cual muchas veces los autores no tienen acceso”, comenta el especialista en tecnología y medios digitales Alex Mendonça, coordinador del servidor SciELO Preprints. De acuerdo con su experiencia, es común recibir de los editores de revistas hospedadas en la biblioteca SciELO relatos sobre problemas con evaluaciones destructivas o demasiado sucintas. “No existe una solución milagrosa para afrontar esta situación, pero hemos aceptado migrar hacia la ciencia abierta incluyendo la revisión por pares. A medida que los dictámenes se vayan volviendo públicos, los evaluadores pensarán más de una vez antes de escribir comentarios rudos y prejuiciosos”. En Brasil, destaca el ejemplo de Bakhtiniana: Revista de Estudos do Discurso, que pasó a adjuntarle al contenido de los artículos recibidos el análisis crítico de los evaluadores, mostrando su identidad. Eventualmente, el comentario puede recibir un DOI (Digital Object Identifier), identificador único para documentos digitales. “De esta manera, puede incluírselo en el currículum del evaluador, valorizando su trabajo y estimulándolo a elaborar un dictamen constructivo”, explica Mendonça.

Artículos científicos BHARTI, P. K. et al. Please be polite to your peers: A multi task model for assessing the tone and objectivity of critiques of peer review comments. Scientometrics. feb. 2024 SILBIGER, N. J. y STUBLER, A. D. Unprofessional peer reviews disproportionately harm underrepresented groups in stem. PeerJ. 7: e8247. dic. 2019. SEIDE, M. S. Rubricas de avaliação de parecer científico. Revista Meta: Avaliação, v. 15, n. 48, p. 620-40. jul. 2023.

This work first appeared on Pesquisa FAPESP under a CC-BY-NC-ND 4.0 license. Read the original here.