La gestión y el almacenamiento de los grandes volúmenes de datos que se generan en sus investigaciones constituyen algunos de los desafíos que enfrentan los científicos de todos los campos del conocimiento. Durante la última década, algunas de las principales agencias de fomento de la investigación, tales como la National Science Foundation (NSF) en Estados Unidos y el Economic and Social Research Council del Reino Unido, pasaron a exigir que los investigadores remitan, junto con las solicitudes de financiamiento, los llamados planes de gestión de datos, que describen de qué manera se gestionarán, se preservarán y se darán a conocer en repositorios públicos los datos producidos. El objetivo de esto es promover el intercambio de información a los efectos de permitir la reutilización o la reproducción de experimentos, acelerando así los nuevos descubrimientos científicos y racionalizando la aplicación de recursos.
En Brasil, no existe la obligatoriedad de la elaboración de planes de gestión. En octubre del año pasado, la FAPESP dio un primer paso en tal sentido y anunció que las solicitudes de financiamiento para proyectos temáticos −aquellos con una duración de cinco años que se destacan por sus audaces objetivos− deben contener un documento complementario que explicite el plan de gestión de datos. Esta medida se extenderá gradualmente a otras formas de apoyo de este año. “Se trata de una iniciativa pionera en el país al establecer políticas y directrices para la gestión de datos científicos”, afirma Claudia Bauzer Medeiros, docente del Instituto de Computación de la Universidad de Campinas (Unicamp) y coordinadora del programa eScience de la FAPESP.
El Código de Buenas Prácticas de la Fundación, publicado en 2011, ya establecía que los científicos deben poner a disposición los registros resultantes de sus investigaciones. “A partir de ahora, deberán detallar cómo serán manejados desde su recolección hasta su preservación, declarando de qué forma y a partir de cuándo estarán disponibles”, dice. En Brasil, la Unicamp fue pionera en crear formularios para planes de gestión y registrarlos en el sitio mundial DMPTool (dmptool.org). Esta iniciativa, dirigida por Benilton de Sá Carvalho, del Instituto de Matemática, Estadística y Computación Científica (Imecc), permite que investigadores de esa universidad puedan fácilmente crear sus planes en línea y ponerlos a disposición de todo el mundo. DMPTool reúne a más de 200 instituciones de investigación de diferentes países que oficializaron la creación y la disponibilidad de sus planes de gestión de datos. Por ahora momento, sólo tres universidades brasileñas están en la plataforma: la Unicamp, la Universidad de São Paulo (USP) y la Federal del ABC (UFABC).
Es necesario detallar cómo se gestionarán los datos desde la recolección hasta la preservación
La disponibilidad de datos de experimentos o recolectados en campo tiene el potencial de impulsar alianzas y acelerar descubrimientos científicos al ampliar la visibilidad de la investigación. En 2016, un consorcio internacional que involucró a más de 30 organizaciones, entre ellas la Fundación Oswaldo Cruz, la Academia China de Ciencias y los Institutos Nacionales de Salud (NIH) de Estados Unidos, estimuló a investigadores a compartir datos recabados durante el brote del virus del Zika. Esta medida surtió efecto y en pocos meses se publicaron estudios que evidencian la relación entre el zika y la microcefalia. En el área de biodiversidad, el almacenamiento de datos científicos en repositorios asegura el acceso a millones de registros sobre especies de plantas y animales, facilitando la producción de nuevos conocimientos. La red speciesLink, una de las bases digitales de biodiversidad desarrolladas en el país, permite la selección de informaciones sobre la existencia y la distribución de especies de microorganismos, algas, hongos, plantas y animales. La plataforma reúne registros de 470 colecciones de Brasil y de otros países. Estas colecciones comparten alrededor de 9 millones de registros de 125 mil especies, de las cuales 2.756 amenazadas de extinción.
Sin embargo, la elaboración un plan de gestión no se restringe a depositar datos en una base online. Según el Data Curation Center, organismo del Reino Unido responsable de la preservación de datos de investigación, el plan debe contener información sobre cómo y por qué los datos se han producido y almacenado. Por eso, resulta fundamental explicar cómo se organizarán los llamados metadatos, datos que describen otros datos. “Se trata de proporcionar descripciones sobre los conjuntos de datos, detallando cómo fueron producidos, cuándo, dónde y cómo pueden ser reutilizados y también quién los generó”, aclara la científica de la información Márcia Teixeira Cavalcanti, docente de la Universidade Santa Úrsula, en Río de Janeiro, y miembro del grupo de investigación Información, Memoria y Sociedad del Instituto Brasileño de Información en Ciencia y Tecnología (Ibict). “Eso significa dotar de identidad y estandarización a los datos científicos, para que puedan quedar fácilmente accesibles en las búsquedas en repositorios y reutilizables en otras investigaciones”, dice.
En 2016, Márcia Cavalcanti fue una de las responsables de la curaduría de datos de la plataforma CarpeDIEN (carpedien.ien.gov.br) del Instituto de Energía Nuclear (IEN), que realiza investigaciones en áreas tales como las de radiofármacos y de inteligencia artificial. “Se tardó un tiempo para lograr adecuar los modelos de metadatos más apropiados para el tipo de información con el que estábamos lidiando”, comenta. Según la investigadora, el proceso de curaduría debe comenzar antes de que los datos sean producidos. “En el plano de gestión, es importante que el investigador describa incluso qué software o equipo serán utilizados para generar informaciones tales como imágenes o algoritmos”. Para Claudia Medeiros, este tipo de información es fundamental. “A menudo, tener acceso a los datos no es suficiente como para reproducir un experimento. Es necesario también tener los mismos programas de computadora o el mismo sistema operativo para repetir las mismas condiciones del estudio original”, destaca.
Los investigadores financiados con dinero público no pueden escamotearse de compartir información, dice Câmara
Durante el período en el IEN, Márcia Cavalcanti realizó un estudio sobre los repositorios de datos en Europa. Publicado el año pasado en la revista del Instituto de Ciencias Humanas y de la Información de la Universidad Federal de Rio Grande (Furg), en Rio Grande do Sul, dicho estudio analiza la situación de 33 países, de los cuales sólo nueve han declarado repositorios de acceso abierto datos de búsqueda en 2016. De acuerdo con este trabajo, esto revela que en muchos países europeos la aplicación de políticas de intercambio de datos de investigación se encuentra en etapa inicial. El Horizonte 2020, el principal programa de apoyo a la investigación y la innovación de la Unión Europea, que entró en vigencia en 2007, emitió en 2016 un documento donde se describían los pasos para la preparación de un plan de gestión de datos, que pasaron a ser obligatorios en todos los proyectos remitidos a partir de 2017. Uno de los puntos más importantes de la guía es llamar la atención sobre situaciones en que la divulgación de datos brutos puede desencadenar problemas éticos. Por ejemplo, ensayos clínicos que utilizan datos personales y necesitan garantizar la privacidad de los pacientes.
“Salvo excepciones de este tipo, no existe argumento para justificar el no suministro de datos por investigadores financiados con dinero público”, afirma Gilberto Câmara, investigador del Instituto Nacional de Investigaciones Espaciales (Inpe) y miembro de la coordinación del Programa FAPESP de Investigaciones sobre Cambios Climáticos Mundiales. Según Câmara, muchos investigadores evitan depositar datos de experimentos antes de publicar el estudio en un periódico científico, alegando que las informaciones pueden ser apropiadas por otros y publicadas sin recibir el debido crédito. “Eso es habladuría”, critica Câmara. El investigador explica que el intercambio de datos es independiente de la publicación del documento. Esto es porque la información depositada en los repositorios recibe un código identificador conocido como Digital Object Identifier (DOI), permitiendo la trazabilidad del dato. “El hecho es que, desgraciadamente, muchos investigadores no quieren que alguien publique un análisis antes que ellos –que recabaron los datos− o que divulguen sus trabajos primero”, dice Câmara.
“Todos los datos relativos a mis trabajos se depositan en bases abiertas tan pronto como son recabados”, afirma el investigador, quien publica datos generados por análisis de imágenes satelitales en Pangaea, una plataforma que reúne datos georreferenciados. Recientemente, la información almacenada por Câmara en esta base digital fue reutilizada por investigadores de Restore +, un consorcio internacional con sede en Alemania destinado a promover estudios sobre el uso de la tierra. Câmara celebra la iniciativa de la FAPESP de exigir el plan de gestión de datos de los investigadores. “Esta acción puede ayudar a combatir los hábitos perversos practicados en el medio científico al difundir buenas prácticas de gestión de datos”, apunta. “Hay investigadores que se sienten dueños de los datos y sólo los ceden a colegas si obtienen algo a cambio, como la coautoría del artículo. Esta conducta, desgraciadamente, es bastante frecuente “, dice.
- Destaque los tipos de datos que serán producidos durante la ejecución del proyecto. Por ejemplo: registros de recolección, resultados experimentales, gráficos, mapas, videos, planillas, grabaciones de audio o imágenes.
- Comunique eventuales restricciones éticas o legales para el intercambio de datos, además de medidas tendientes a asegurar la privacidad, la confidencialidad, la seguridad y la propiedad intelectual.
- Describa la política de preservación y uso compartido. Por ejemplo, si los datos se publicarán inmediatamente o sólo después de la publicación de un artículo.
- Presente los métodos que se emplearán para almacenar los registros y dejarlos accesibles. Incluya los metadatos (datos que describen conjuntos de datos) para que los usuarios puedan reutilizar archivos depositados en repositorios.
- Actualice el plan siempre que sea necesario, incluyendo correcciones de rumbo y adopción de nuevas metodologías.
Fuente Claudia Bauzer Medeiros