La comunicación abierta siempre ha formado parte de la ciencia, pero existen nuevas formas de compartir datos. El informe Science as an open enterprise, de la Royal Society, destaca la necesidad de lidiar con una avalancha de datos de interés científico disponible nuevas tecnologías mediante, con el objetivo de preservar el principio de apertura y analizar los datos de manera tal que tengan potencial como para provocar una nueva revolución científica.
Parte del interés de la Royal Society en realizar ese estudio fue una gran controversia que se suscitó en el Reino Unido hace menos de un año y medio, en 2009: el climategate. Los e-mails enviados por investigadores fueron hackeados y alguien los publicó. Se trató de un wikileaks de la ciencia, por así decirlo. Y los e-mails sugerían que algunos científicos habían intentado ocultar datos a los escépticos del cambio climático. La razón para que eso originara una polémica es que nosotros esperamos que los científicos se encuentren abiertos al debate y al escepticismo. Este acontecimiento generó otra serie de cuestiones para el análisis de la ciencia en el siglo XXI. El informe, emitido el pasado mes de junio, aborda oportunidades y desafíos y fue producto de debates con expertos, incluyendo gente de la industria, de las ciencias sociales, de las ciencias de la computación, y de las ciencias del clima.
Obsérvese un caso que ocurrió en el mes de mayo de 2011, en Hamburgo, Alemania. Hubo un brote de infección intestinal causado por Escherichia coli, que se diseminó velozmente por toda Europa, afectando a 400 mil personas. Todas las víctimas daban positivo para una determinada cepa de E. coli. Los médicos de Hamburgo no sabían cómo resolverlo. ¿Qué es lo que pasaba con esa cepa de E. coli? Parecía ser muy similar a otras, pero, ¿por qué provocaba entonces esa infección? La búsqueda de una solución condujo a una forma bastante abierta de cooperación. En primer lugar se informaron los datos sobre el genoma de la cepa de E. coli. Eso se publicó en un sitio web para que cualquier individuo en cualquier parte del mundo pudiese acceder a esa información. En tres semanas se publicaron unos 200 informes sobre lo que habría que hacer para impedir la epidemia y sus efectos, y esos resultados se utilizaron para controlar el brote. Eso fue posible gracias a un método bastante abierto de realizar ciencia y a la expertise de otros países, que condujeron a una solución para una cuestión de salud pública en pocos meses. Esta es una historia significativa, del tipo de conquista que buscamos al hacer uso de una ciencia más interactiva.
El informe se produjo luego de un año de debate y debemos ser cuidadosos con el lenguaje y con el entusiasmo que tenemos sobre esa forma de hacer ciencia, a la que solemos denominar “apertura inteligente”. Debemos compartir los datos de tal manera que otros individuos puedan utilizarlos, ya sea en cuestiones ligadas a la salud pública, a la industria u a otro tipo de aplicación. La apertura no constituye, por sí sola, algo útil. Se necesita instaurarla en forma inteligible. Los cuatro criterios que debemos seguir son, en primera instancia, tornar accesibles los metadatos. En segundo lugar, ellos deben ser comprensibles. Tercero, se necesita exponer un contexto, con el objeto de que las personas que los utilicen comprendan cómo es que se obtuvieron, cuánto tienen de confiable, es decir, eso es para el propósito de una revisión por pares. Y finalmente, los datos deben ser reutilizables o replicables. Sólo si se cumplieran esos cuatro criterios contaríamos con una apropiada apertura de datos. La apertura es cara, y eso es un problema, porque necesitamos tener esos criterios definidos para cada uno de los diferentes públicos que utilizarán los datos.
En el Reino Unido y Europa se produjo un gran debate acerca del concepto de “apertura inteligente”, sobre cómo las industrias podrían utilizar esos datos y que ello generara un gran desarrollo económico. ¿Cuáles son los límites de esa apertura? ¿Hay intereses comerciales legítimos que también debamos proteger? ¿Qué apertura podemos sostener? Contamos con algunos ejemplos, tales como el del Instituto Europeo de Bioinformática. Ellos tienen un mecanismo capaz de permitirles a las empresas que comparen y cotejen información de sus bancos de datos internos con nuestros grandes bancos de datos, sin que nadie realmente logre ver los datos del otro. Eso es apertura, aunque dentro de las limitaciones de un contexto comercial.
Otro tema surge en cuanto a la utilización de seres humanos. Evidentemente, ese tipo de información no puede ser liberada, pues constituiría una violación de la privacidad. También hay cuestiones que involucran a la seguridad. Se suscitó una controversia en cuanto al virus H1N1, cuando se detectó una nueva cepa de virus que era altamente contagiosa. El punto era si esos trabajos sobre el virus H1N1 deberían publicarse o no, porque podrían ser utilizados por bioterroristas. Finalmente se acordó publicarlos, en efecto, ya que no habría tanta gente capaz de utilizarlos con fines terroristas.
Cuando hablamos de la transición hacia un ámbito de investigación en que los datos son más abiertos, estamos refiriéndonos a un sistema bastante complejo. La idea de una pirámide ayuda a entender cómo ocurre eso. Cuánto más alto es el nivel en esa pirámide, mayor es la responsabilidad y la demanda de acceso. En la base de esa pirámide, se ubican los datos individuales y personales, que, para muchos investigadores, deben mantenerse a resguardo, nadie quiere dar a conocer esos datos al mundo. Tenemos entonces, una gran base en nuestra pirámide, constituida por las colecciones individuales archivadas por los investigadores. Parte de ello podría ser útil para todos, pero no podemos olvidar que eso todavía subsiste. A medida que ascendemos hacia la cima, en la capa siguiente, encontramos a las universidades administrando sus bancos de recolección de datos en el Reino Unido. Hay universidades que compiten con ahínco en cuanto a la cantidad de artículos y datos que publican, y esos datos pertenecen a las instituciones. Entonces ellas procuran mantener eso restringido en archivos institucionales. El estrato siguiente es el de las colecciones de datos nacionales. Y en la cúspide se encuentran los recursos de datos internacionales, tales como, por ejemplo, el banco de datos mundial de proteínas, que alberga datos recabados a lo largo de los años.
Para simplificar, aspiramos a ver todos los datos activos online, queremos que eso opere en forma conjunta. Los datos forman parte integrante de la ciencia y deben comunicarse en esa forma, y no solamente incluidos en artículos. Aspiramos a que toda la literatura científica se encuentre disponible online, que todos los datos primarios sean accesibles online. Para decirlo en términos concretos, podemos establecer seis prioridades. La primera consiste en modificar la cultura vigente que considera a los datos científicos como propiedad particular. La segunda es dar crédito, en el proceso de evaluación de la investigación, a la comunicación de datos útiles y a las nuevas formas de cooperación. La tercera reside en establecer estándares comunes para la comunicación de datos. La cuarta es fomentar lo que anteriormente denominamos apertura inteligente de datos. La quinta consiste en apuntalar al grupo de científicos que trabajan con datos. Contamos con muchos ingenieros de computación capaces de hacer eso en el Reino Unido, por lo tanto es una prioridad actual y urgente. Y la sexta es el desarrollo de nuevos software, capaces de automatizar y simplificar la creación y el análisis de conjuntos de datos. En caso de que actualmente haya que invertir en algo, en lo que se debe invertir es en eso. Espero que algo así, que resulta fundamental para los investigadores, se debata en profundidad en el Foro Mundial de Ciencia. Y que podamos generar algo que sea más que una herramienta destinada a lidiar con un pequeño brote epidémico, tal como sucedió en Alemania el año pasado.
Republicar