Imprimir Republish

Gestión de datos 

Propagación desigual

La reutilización de la información científica aún es baja y varía de acuerdo con el área del conocimiento

Marcelo Cipis

La reutilización de datos en la investigación científica está creciendo, pero aún está lejos de consolidarse en este ámbito. Esta práctica, que consiste en elaborar estudios a partir de los datos generados en experimentos anteriores llevados a cabo por otros científicos, está efectivamente más difundida en las ciencias exactas y biológicas, mientras que afronta resistencias en las ciencias sociales. En general, los investigadores que trabajan con información recabada a partir de modelos computacionales o por monitoreo remoto se sienten más cómodos al reutilizar datos de terceros. Ésta es una de las conclusiones a las que arribó un artículo elaborado por la analista de datos Renata Curty, de la Universidad Estadual de Londrina (UEL), en el estado de Paraná, que salió publicado en la revista PLOS ONE.

Con base en las respuestas de 595 investigadores de diversas disciplinas y países, ella y sus colaboradores analizaron el grado de difusión de la reutilización de datos y la percepción de los factores que promueven o desalientan esa práctica. Un dato curioso es que este análisis se basó en datos reutilizados. La fuente original fueron los más de mil  cuestionarios respondidos por científicos entre los meses de octubre de 2013 y marzo de 2014, en el marco del Data Observation Network for Earth (DataONE), un proyecto de la National Science Foundation (NSF).

Curty estudia la percepción acerca del reciclado de información científica desde su doctorado, que realizó en la Universidad de Siracusa, en Estados Unidos. En esa época, la investigadora comprobó que los científicos de las ciencias sociales perciben consecuencias potencialmente perjudiciales asociadas a la reutilización de datos. “Muchos consideran que eso sería violar cuestiones éticas o de confidencialidad pactadas entre los sujetos de estudio y los investigadores”, explica. Otra de las preocupaciones reside en el riesgo de una mala interpretación o el uso incorrecto de la información original. La opinión de los investigadores de las ciencias sociales sobre el reúso de datos también está muy influenciada por el propio campo de actuación, que preconiza la producción de conocimiento nuevo. “Los trabajos que reciclan datos se consideran menos auténticos y con menor impacto”, afirma.

El estímulo al reaprovechamiento de datos surge de varias fuentes. Una de ellas es la preocupación creciente con respecto a la reproductibilidad de los estudios y a la importancia de disponer las informaciones primarias recabadas para que otros puedan comprobar la precisión e importancia de los resultados. En Brasil, a partir de 2013, la revista Brazilian Political Science Review, de la Asociación Brasileña de Ciencia Política, exige que los autores de los artículos cuyo contenido utiliza métodos cuantitativos tornen accesible en el sitio web de la revista los datos en los cuales se basó el trabajo y también los codebooks, diccionarios que permiten la identificación de las variables utilizadas para la obtención de las informaciones. “La propuesta intenta viabilizar la réplica de los procedimientos que condujeron a las conclusiones que presentaron los  trabajos”, dice la politóloga Marta Arretche, del Departamento de Ciencia Política de la Facultad de Filosofía, Letras y Ciencias Humanas de la Universidad de São Paulo (FFLCH-USP) y editora de la revista.

Daniel Eisenstein/ Sloan Digital Sky Survey La reutilización de datos sobre conglomerados de galaxias (arriba) está ampliando las perspectivas de estudio de los cuerpos celestes en la astronomíaDaniel Eisenstein/ Sloan Digital Sky Survey

La investigadora recuerda que la ciencia sólo puede replicarse si los datos y herramientas utilizados en los experimentos, simulaciones y análisis quedan disponibles en forma abierta y libre. Sin embargo, ella subraya que es fundamental que ese conjunto de informaciones se encuentre acompañado de explicaciones sobre su origen. “Si no se cuenta con datos bien documentados no se puede reproducir el experimento original o reutilizar los datos en otra investigación”, añade.

Desde 2014, el grupo de periódicos científicos PLOS comenzó a condicionar la aceptación de artículos a la divulgación de sus datos brutos en repositorios públicos. En las revistas de genética y bioinformática, cuyos trabajos generan una avalancha de informaciones sobre secuencias de ADN y proteínas, hace tiempo que esa recomendación se tornó una exigencia. Eso les permitió a las genetistas Lygia da Veiga Pereira y Maria Vibranovski, del Instituto de Biociencias de la USP, explicar cómo se desactiva una de las dos copias del cromosoma X en los embriones femeninos. Las investigadoras analizaron informaciones que dejaron disponibles en 2013 científicos chinos y constataron que el gen XIST, que es el responsable de iniciar la inactivación, estaba expresado en los embriones femeninos a partir de la fase de ocho células. “Los chinos habían hecho toda la parte de laboratorio. Consiguieron los embriones humanos, separaron las células, extrajeron y secuenciaron el ARN, pero no se percataron de la desactivación del cromosoma X”, dijo Pereira, quien publicó el hallazgo en septiembre de 2017 en la revista Scientific Reports.

Otro caso es el del grupo del parasitólogo Marcelo Ferreira y la bióloga Priscila Rodrigues, ambos del Instituto de Ciencias Biomédicas de la USP. Desde hace algún tiempo ellos estudian los modelos de dispersión global de los parásitos causantes del paludismo. “Tomamos muestras del material genético de los protozoarios disponibles en el GenBank, el banco de secuencias de ADN y aminoácidos del Centro Nacional de Información Biotecnológica de Estados Unidos”, relata Rodrigues. Con base en esa práctica se elaboraron al menos dos artículos en los últimos tres años: uno en 2016, publicado en la revista Nature Genetics, que resalta que el Plasmodium vivax acumuló mutaciones que lo habrían diferenciado de las cepas africana y asiáticas después de arribar a América, otro en enero de 2018, que salió en la revista Scientific Reports, presentando nuevas evidencias al respecto del modo en que las migraciones humanas colaboraron para diseminar esos parásitos por el continente americano.

El incentivo a la reutilización de datos también proviene de las agencias de fomento, que están interesadas no sólo en el reto de la reproducibilidad sino en racionalizar la asignación de recursos públicos en los proyectos que financian. “Los datos utilizados en forma común pueden redundar en una economía de tiempo y recursos para el científico y así se evitan también los estudios duplicados”, resalta la ingeniera electricista Claudia Bauzer Medeiros, del Instituto de Computación de la Universidad de Campinas (Unicamp) y coordinadora adjunta del programa eScience de la FAPESP. “Estudios internacionales muestran que dicha práctica incrementa el número de cooperaciones, acelera descubrimientos científicos y amplifica la visibilidad del conocimiento producido”, afirma.

La idea de que las investigaciones producidas con recursos públicos deben franquear el acceso a sus resultados sin restricciones, incluso en relación a los datos primarios recabados también se relaciona con el concepto de ciencia abierta, que implica el acceso libre a la información y a la construcción colectiva del conocimiento, dice Claudia Domingues Vargas, del Instituto de Biofísica de la Universidad Federal de Río de Janeiro (UFRJ). Ella es una de las científicas involucradas en el Neuroscience Experiments System (NES), que permite el libre acceso a los datos primarios de los estudios en el campo de las neurociencias.

La plataforma fue ideada en el ámbito del Centro de Investigación, Innovación y Difusión en Neuromatemática (NeuroMat), uno de los Centros de Investigación, Innovación y Difusión (Cepid) financiados por la FAPESP. Involucra a investigadores de matemática, ciencias de la computación, estadística, neurociencia, biología, física y comunicación de universidades brasileñas y del exterior. “La propuesta del NES consiste en un repositorio público que permita el acceso abierto a un amplio conjunto de datos neurofisiológicos, clínicos y experimentales, así como a los software utilizados en el análisis, procesamiento y generación de esas informaciones”, explica Claudia Vargas, que es una de las científicas principales del NeuroMat.

La disponibilidad de los datos científicos avanza a ritmos diferentes dependiendo del área del conocimiento. En el ámbito de la astronomía es algo habitual, como dice la física Marcelle Soares-Santos, docente de la Universidad Brandeis e investigadora en el Fermi National Accelerator Laboratory, uno de los centros más importantes de física de partículas del mundo, en Estados Unidos. “Saqué mucho provecho de esa práctica durante mi doctorado”, comenta. En esa época ella desarrolló algoritmos para detectar cúmulos de galaxias a partir de informaciones del Sloan Digital Sky Survey sobre 500 millones de cuerpos celestes. La investigadora explica que en astronomía, los datos primarios son abundantes y raramente se los estudia en su totalidad. “Muchos de los temas de la astronomía sólo pueden estudiarse a partir del análisis de diversos datos científicos obtenidos por otros grupos de investigación.

Una paradoja
El estudio publicado en la revista PLOS ONE remarca un dato peculiar que está relacionado con la percepción sobre la reutilización: los científicos que más se preocupan por la credibilidad de los datos que pretenden utilizar son los que se muestran más dispuestos a reaprovechar los registros producidos por terceros. En tanto, los que casi nunca reutilizan afrontan mayores dificultades para comprender los beneficios de esa práctica y analizar la calidad de la información disponible.

En el estudio How and why researchers share data (and why they don’t), que llevó a cabo en 2014 la editorial John Wiley & Sons con casi 3 mil investigadores de diversas áreas y países, se verificó que los alemanes son los más proclives a compartir datos, con el objetivo de aumentar la visibilidad y garantizar la transparencia de sus investigaciones. En tanto, los chinos son los menos propensos a compartir con otros las informaciones de sus estudios, especialmente porque ese no es un requisito para la financiación. Los brasileños se quejaron del trabajo extra para clasificar toda esa maraña de datos, de los costos para guardarla y de las dificultades para hallar repositorios adecuados.

En los estudios sobre la reutilización de los datos científicos, los investigadores alegan con frecuencia que tienen reparos para proveer sus informaciones porque aún desean sacar provecho de ellas en nuevos estudios o porque temen no recibir los debidos créditos por dicha cesión. Esos y otros temores también pudieron observarse en el informe Open Data: The research perspective [, de la editorial Elsevier. Pero el mismo estudio constató que el 73% de los entrevistados consideraban que el acceso a los datos científicos de terceros podría beneficiar a sus propios estudios y que el 64% de ellos se mostraron predispuestos a compartir informaciones con otros investigadores.

El principal desafío, según Claudia Bauzer Medeiros, consiste en promover el reúso de informaciones científicas, mostrándoles a los investigadores los beneficios de esta práctica, y al mismo tiempo intervenir para combatir los casos de apropiación indebida de datos. Otra estrategia deseable, según la investigadora, es la creación de cursos que les enseñen a los investigadores y alumnos a preparar datos y experimentos para compartirlos. “Este tipo de capacitación ya constituye un modelo en varios países del mundo, y en algunos casos se ha tornado una exigencia en la formación científica”, añade.

Renata Curty sostiene que es necesario invertir en sistemas que verifiquen la calidad de los datos disponibles y en recompensas para los científicos que adopten esta práctica. En Estados Unidos ya existen algunas iniciativas en ese sentido. Una de ellas es la Plataforma Global de Información sobre Biodiversidad (GBIF), que aglutina casi 850 millones de registros de especies, 6 millones de ella oriundas de Brasil. Al registrar los datos primarios de sus estudios en la GBIF, los investigadores pueden generar un Data Paper, esto es, un documento que puede publicarse online en plataformas de acceso abierto enfocadas en la descripción de conjuntos de informaciones de investigaciones consideradas valiosas. Existen publicaciones dedicadas a difundir esos artículos de datos, según la investigadora de la UEL, tales como el Biodiversity Data Journal, el Data in Brief, de Elsevier, y el Scientific Data, del grupo Nature.

Artículo científico
CURTY, R. G. et al. Attitudes and norms affecting scientists’ data reuse. PLOS ONE. v. 12, n. 12, p. 1-22. ene. 2018.

Republicar