Imprimir

INFRAESTRUCTURA 

Una ciencia transparente

A los investigadores se les pide cada vez más que guarden los datos primarios de sus estudios en repositorios públicos

Bel Falleiros Ciertas transformaciones ocurren de manera tan gradual que sólo puede percibirse su alcance en una etapa ulterior del proceso. Uno de esos momentos donde parecen cristalizarse los cambios ocurrió en el mes de marzo, con la decisión de las siete revistas científicas que conforman PLOS (sigla para Public Library of Science) de condicionar la aceptación de nuevos artículos a la divulgación por sus autores, en repositorios públicos, de los denominados datos de la investigación, que es el cúmulo de informaciones primarias que, una vez analizadas e interpretadas, sirven como base para las conclusiones del paper. Esta nueva disposición de PLOS, que se encuadra en una gran movilización de las agencias de fomento, científicos y universidades para dotar de mayor transparencia a las publicaciones y a los resultados de las investigaciones, no es precisamente una novedad. La mayoría de los periódicos recomienda a los autores que hagan visibles los datos y esta recomendación ya hace tiempo que se convirtió en exigencia en las revistas de genética y bioinformática, cuyos estudios generan gigantescos volúmenes de información sobre secuencias del ADN y proteínas. En 2013, la Oficina de Política Científica y Tecnológica del gobierno estadounidense envió un memorándum a las principales agencias de fomento que establece el acceso abierto a los resultados de investigaciones financiadas con fondos públicos, incluyendo la oferta de los datos primarios en repositorios, excepto restricciones de confidencialidad y privacidad personal, aunque restan definir los plazos para que esa idea sea puesta en práctica.

La decisión de la PLOS parece crear un punto de inflexión en esta tendencia. “Nuestro punto de vista es sencillo. La garantía del acceso a los datos subyacentes debe ser parte intrínseca del proceso de publicación científica”, alega Theodora Bloom, directora editorial de PLOS Biology, de PLOS Computational Biology y de PLOS Genetics. Con más de 30 mil artículos publicados durante el año pasado, las revistas PLOS fueron creadas en el transcurso de la década de 2000 por una institución sin fines de lucro siguiendo un modelo innovador. Los artículos solamente son publicados online y en acceso abierto ‒o sea, que se encuentran disponibles para su consulta por cualquier persona, a través de internet, en forma gratuita‒, no obstante, gracias a un cuerpo de revisores de primera línea, alcanzaron un factor de impacto comparable al de las publicaciones tradicionales. PLOS Medicine, por ejemplo, obtuvo un factor de impacto de 15,2 en 2012; eso significa que, en promedio, cada uno de sus artículos publicados entre 2010 y 2011 fue citado 15,2 veces en periódicos indexados durante 2012. Su competidora Nature Medicine, del grupo Nature registró en el mismo período un factor de impacto de 24,3. “Como la PLOS es un referente internacional, su decisión contribuirá para la difusión de la idea del depósito de los datos de investigación y generará una demanda adicional de repositorios y también modelos que financien esa demanda”, dice Abel Packer, coordinador de la biblioteca SciELO Brasil, un programa especial de la FAPESP creado en 1998 que agrupa a casi 300 publicaciones científicas con acceso abierto de Brasil.

Banco de datos de la Organización Europea para la Investigación Nuclear (Cern), en Ginebra

CERNBanco de datos de la Organización Europea para la Investigación Nuclear (Cern), en GinebraCERN

Las nuevas reglas de la PLOS generaron dudas y algo de revuelo. Diez días después del comienzo de esa implementación, sus editores pidieron disculpas por ciertos puntos ambiguos y aclararon que nada se modificó en relación con la naturaleza de los datos que deben describirse en los artículos, lo único nuevo por lo que hay que preocuparse consiste en indicar en qué banco o repositorio pueden encontrarse los datos primarios (los archivos del propio investigador no constituyen una opción), para el caso en que los revisores del artículo u otros investigadores interesados en el tema necesiten evaluarlos. PLOS considera datos primarios a aquellos que componen tablas y análisis estadísticos publicados en un artículo y son indispensables para que otros investigadores logren reproducir los mismos hallazgos. Los datos protegidos por razones de seguridad o privacidad no se encuentran incluidos en la exigencia.

Los cambios despertaron reacciones de quienes presienten en esas reglas una nueva carga para los investigadores. El genetista David Crotty, editor del programa de publicación de revistas científicas de la Oxford University Press, escribió en su blog, en el portal The Scholarly Kitchen, que esta modificación podría reducir el número de artículos remitidos a las revistas PLOS. “Si la publicación en una revista PLOS exige que uno dedique semanas de trabajo adicional para organizar sus datos en una forma que sea reutilizable o por lo menos reconocible, por no hablar del costo de guardar los datos y el esfuerzo para encontrar un repositorio adecuado, entonces ¿por qué no publicar el artículo en un periódico diferente eliminando los costos y la pérdida de tiempo?”, indagó Crotty. No se trata, afirma Abel Packer, de realizar trabajo adicional, pues el cambio de paradigma es bastante más profundo. “Estamos hablando de nuevas prácticas, en las cuales los datos ya se encuentran ordenados mientras se realiza la investigación, de modo que puedan quedar disponibles en repositorios y sean inteligibles y reutilizables para otros usuarios”, sostiene.

Sala de control del satélite meteorológico operado por la Agencia Espacial Europea y la Organización Europea para Explotación de Satélites Meteorológicos, en Darmstadt, Alemania

Ysangkok/ Wikimedia Sala de control del satélite meteorológico operado por la Agencia Espacial Europea y la Organización Europea para Explotación de Satélites Meteorológicos, en Darmstadt, AlemaniaYsangkok/ Wikimedia

El almacenamiento de datos científicos en repositorios y su reutilización constituye una de las preocupaciones del recientemente lanzado Programa FAPESP de Investigación en eScience, una expresión que resume el desafío de investigación para organizar, clasificar y garantizar el acceso al gigantesco volumen de datos que se generan continuamente en todos los campos de investigación, con la finalidad de extraer nuevos conocimientos y realizar análisis vastos y originales. “No debe pensarse que al investigador le bastará con descargar un dato guardado en un repositorio para utilizarlo en un nuevo estudio”, dice Claudia Bauzer Medeiros, docente del Instituto de Computación de la Universidad de Campinas (Unicamp) y coordinadora adjunta de programas especiales eScience de la FAPESP. “La reutilización de datos compartidos o la reproducción de experimentos exige conocer su origen y comprender cómo han sido producidos, asociando a esa información métodos, algoritmos o técnicas adoptadas, e incluso poseer acceso al software necesario para procesarlos, lo cual convierte al proceso en algo bastante complejo. Sin ello, puede que no sea posible reproducir el experimento original o reutilizar los datos en otra investigación”, afirma la profesora, quien recuerda que el primer llamado a la presentación de propuestas del programa eScience se encuentra abierto hasta el 28 de abril. Uno de los objetivos del programa es la investigación relacionada con repositorios de datos. “Esperamos que los proyectos que se presenten, que deberán involucrar investigación conjunta en computación y en otras áreas del conocimiento, contribuyan a la creación de metodologías y modelos de datos para crear repositorios, y redunden en formas más eficientes de describir el contenido y estructurarlo, para poder recuperarlo”, explica. “No es suficiente, por ejemplo, la descripción de datos mediante palabras claves. Si un investigador quisiera reutilizar ese dato para un propósito diferente, difícilmente hallará la palabra clave”, sostiene.

Este tipo de esfuerzo de investigación inspiró el Nature Publishing Group, que edita la revista Nature, a publicar una nueva revista a partir del mes de mayo. Se trata de Scientific Data, una publicación online con acceso abierto que no está dedicada a la descripción de nuevos hallazgos científicos, sino a los dataset (conjunto de datos) de investigaciones consideradas valiosas. El objetivo consiste en promover la documentación, intercambio y reutilización de los datos en los que se basan las investigaciones, en modo abierto, para acelerar la marcha de los descubrimientos científicos. Para alcanzar ese objetivo, los editores de la revista introdujeron un metadato (datos concernientes a otros datos) denominado data descriptor. En la revista, esos metadatos proveerán descripciones minuciosas de conjuntos de datos en ciencias de la vida, biomédicas y ambientales, con un enfoque exclusivo en cómo fueron producidos, por quién y cómo pueden reutilizarlos los científicos independientes. “Los metadatos les aportan identidad a los datos científicos y documentación estandarizada y capacidad de acceso para las búsquedas, interoperables bajo diferentes sistemas en la web, reutilizables en otras investigaciones y pasibles de ser citados”, dice Abel Packer.

El principio de reproductibilidad de las investigaciones es el motor más importante para la creación de los repositorios de datos de investigación. Una cantidad nada despreciable de descubrimientos científicos acaba por quedar sin confirmación luego de su publicación, debido a problemas entre los cuales se incluyen errores y fraudes, pero que también se extienden a falsos resultados positivos o negativos obtenidos de buena fe. Este problema abruma a investigadores y revistas científicas, obligados a cancelar la publicación de trabajos cuyos resultados sonaban prometedores, y se convirtió en una pesadilla para empresas farmacéuticas y de biotecnología. Según revela un reportaje reciente en la revista The Economist, los investigadores de una empresa de biotecnología, Amgen, constataron que podían reproducirse tan sólo seis de 53 estudios a los que se consideraba “hitos” en la investigación del cáncer.

Archivo de imágenes de monitoreo remoto del Servicio Geológico de Estados Unidos

USGSArchivo de imágenes de monitoreo remoto del Servicio Geológico de Estados UnidosUSGS

“Más allá de verificar la validez de los resultados, el acceso a la reutilización de datos también permite la realización de nuevas investigaciones y estudios comparativos combinando datos de diferentes orígenes”, dice Abel Packer. “Para las agencias de fomento, se trata de un avance importante, ya que permite generar mayor conocimiento a partir de una misma inversión”. La experiencia revela que los investigadores afrontan dificultades para mantener los datos primarios disponibles a lo largo del tiempo. Un artículo publicado en diciembre en la revista Current Biology reveló que las informaciones que sirven como base de artículos científicos se van perdiendo con el tiempo. Los autores analizaron exhaustivamente 516 artículos del área de la ecología publicados entre 1991 y 2011, y revisaron qué había sucedido con los datos primarios. Constataron que los artículos publicados en los dos años previos se hallaban disponibles, pero las posibilidades de que eso sucediera con los publicados anteriormente caían a una tasa del 17% al año. “Tarde o temprano, el software que permite abrir un archivo o un banco de datos quedará obsoleto. Existe un área de investigación en computación, denominada curaduría, que se dedica a preservar los equipos de computación y a garantizar no tan sólo la calidad, sino también la preservación de datos para su uso futuro, o al menos los que se consideran valiosos”, dice Claudia Bauzer Medeiros.

Un desafío que aún resta resolver consiste en desarrollar un modelo destinado financiar los servicios ligados a esa nueva etapa. “Las tarifas que, eventualmente, cobran los repositorios no son altas, pero alguien tiene que financiarlas. Actualmente hay instituciones y programas de investigación, por ejemplo, en el área de genética y de proteínas, que crearon repositorios de ese tipo y financian el almacenamiento y la disponibilidad de los datos”, dice Abel Packer, refiriéndose a casos como el del GenBank, un banco de datos de secuencias de ADN y aminoácidos dependiente del Centro Nacional de Información Biotecnológica de EE.UU. En un esfuerzo para organizar más de 600 repositorios y desarrollar metodologías, se crearon dos catálogos que trabajan en forma cooperativa. Uno de ellos es el Biosharing.org, con sede en la Universidad de Oxford, que contiene la lista de repositorios de datos de ciencias biológicas, tales como ADN y proteínas. El segundo es el Registry of Research Data Repositories, financiado por la Fundación de Investigación de Alemania, que compila los repositorios del resto de las ciencias, incluidas las sociales.

Para fin de año, la biblioteca SciELO Brasil tendrá definida una política para la guarda en repositorios de los datos de las investigaciones publicadas en sus revistas siguiendo los estándares internacionales. “Estamos analizando si es más recomendable que generemos un repositorio propio para la biblioteca SciELO, más allá de los convenios con los repositorios ya existentes”, informa Abel Packer. En Brasil, la creación de repositorios de datos científicos aún es incipiente. Un ejemplo pionero de un banco de datos surgido de proyectos científicos es el que se creó para el Sistema de Información Ambiental (SinBiota), que agrupa e integra las informaciones producidas en proyectos vinculados con el Programa Biota-FAPESP. El SinBiota permite analizar la distribución de las especies catalogadas en el territorio paulista sobre una base cartográfica digital. “El Ministerio de Planificación está organizando un movimiento de datos abiertos, pero se refiere a los datos públicos gubernamentales, no a datos de investigación”, afirma Hélio Kuramoto, tecnólogo sénior del Instituto Brasileño de Información en Ciencia y Tecnología (Ibict) y estudioso del movimiento de acceso abierto a las investigaciones científicas. Varias universidades brasileñas, incluidas las tres estaduales de São Paulo, crearon repositorios para almacenar su producción científica, lo cual representa un gran avance, pero todavía no se contempla el almacenamiento de los datos en que se basan tales investigaciones.

Bel Falleiros Entre las revistas científicas brasileñas, un raro ejemplo con una política de publicación similar a la de PLOS es el de Brazilian Political Science Review (BPSR), vinculada a la Asociación Brasileña de Ciencia Política. La BPSR es una revista con acceso abierto, que se publica exclusivamente en inglés, en formato electrónico. A partir del año pasado, a los autores de artículos cuyo contenido se basa en métodos cuantitativos se les solicita que pongan a disposición, en el propio sitio web de la revista, los bancos de datos en los que se basa el paper y también los denominados codebooks, diccionarios que permiten la identificación de las variables empleadas en los bancos de datos. Esta disposición elevó los costos de mantenimiento de la revista, que necesita de la colaboración de un profesional para mantener el repositorio. “El principio que orientó la adopción de esta iniciativa es un principio básico de la ciencia, que consiste en hacer factible la replicación de los procedimientos que condujeron a las conclusiones obtenidas en un trabajo de investigación. Para el caso en que el lector desee repetir los cálculos como manera de comprobar si las conclusiones son correctas, es preciso que los datos que sirvieron como base se encuentren disponibles públicamente, es decir, sin que el lector deba recurrir a la buena voluntad de los autores de la investigación para que se los suministren”, explica Marta Arretche, docente de la Facultad de Filosofía, Letras y Ciencias Humanas de la Universidad de São Paulo (USP) y coeditora de la revista, junto con Janina Onuki, profesora del Instituto de Relaciones Internacionales de la USP. Otra motivación radica en la posibilidad de ampliar la repercusión de los artículos publicados en la revista. Marta Arretche cita un estudio realizado sobre el periódico Journal of Peace Research, que también pertenece al área de ciencia política y relaciones internacionales. El estudio determinó que los artículos del periódico que pone a disposición los datos primarios ostentan dos veces más citas que los demás.

“Una tercera motivación se relaciona con el costo de producir bancos de datos, que es muy alto. Los repositorios colectivos permiten distribuir esos costos, incrementando las oportunidades de acceso a un tema de investigación”, dice la profesora Arretche, quien coordina el Centro de Estudios de la Metrópolis (CEM), uno de los 17 Centro de Investigación, Innovación y Difusión (Cepid) que financia la FAPESP. El CEM se tornó conocido a partir de los años 2000 debido a que produce y divulga datos georreferenciados sobre las principales metrópolis brasileñas, mediante diversas bases de datos disponibles en su sitio web, en forma gratuita. Según la profesora, la mayor parte de los autores de la revista  afrontan bien la exigencia de la oferta de los datos. “Nutren algunos recelos legítimos, tal como la posibilidad de que alguien utilice los datos sin otorgar el debido crédito, aunque la revista deja en claro que se deben citar las fuentes. Estamos pensando en exigir que los usuarios se identifiquen como requisito para poder acceder a los datos, pero eso violaría el espíritu de acceso abierto a la publicación científica. A otros autores les gustaría sacarles todo el jugo posible a las informaciones antes de hacerlas públicas. De hecho, existe cierta tensión entre el principio de replicación y el de autoría, pero ha prevalecido el primero”, afirma.