Imprimir Republish

Gestión de datos

Información de calidad

Científicos proponen estrategias para aportar confiabilidad a los archivos de bases de datos online sobre biodiversidad

Mariposas de una colección perteneciente a la Universidad de Campinas

Eduardo Cesar y Léo Ramos Chaves

Quienes consultan bases de datos online sobre biodiversidad encuentran millones de registros sobre especies de plantas y animales, así como las áreas que ocupan u ocuparon en Brasil y en otros países. Luego del alborozo inicial por hallar abundante material para fundamentar los trabajos científicos, comienzan las dudas: ¿cómo extraer y filtrar los datos? Y, principalmente, ¿cómo saber si éstos son realmente confiables? Eventuales errores en nombres de especies y su ubicación, ¿se informarán y eliminarán automáticamente? Éstas son cosas importantes porque los datos incorrectos o incompletos conducen con frecuencia a análisis inconsistentes.

Investigadores de la Escuela Politécnica de la Universidad de São Paulo (Poli-USP) abrieron el debate al respecto del control de calidad de las informaciones que figuran en los bancos de datos online, proponiendo nuevas estrategias para resolver problemas que se observan desde hace una década. En 2006, al ingresar a una red de investigación en biodiversidad conformada por biólogos de 11 países de América, el ingeniero electricista Antônio Mauro Saraiva, docente de la Poli-USP, se topó con nombres científicos diferentes para las mismas especies, coordenadas geográficas erróneas y escasez de detalles sobre los organismos recolectados. Tales informaciones figuran en bases de datos online, a partir de las cuales se elaboran trabajos científicos sobre la distribución o la abundancia de ciertas especies zoológicas y botánicas. “Cinco o diez años más tarde, los investigadores ya no reconocían los códigos y abreviaturas que habían utilizado en sus colectas”, advirtió.

Eduardo Cesar y Léo Ramos Chaves Escorpión amarillo (Tityus serrulatus), de las regiones sudeste, centro-oeste y nordesteEduardo Cesar y Léo Ramos Chaves

En 2008, Saraiva comenzó a debatir con el analista informático Allan Koch Veiga sobre cómo podrían perfeccionarse y estandarizarse los criterios de organización y calidad de los bancos de datos para llegar a disponer de informaciones correctas y completas. Bajo la dirección de Saraiva, Veiga concluyó su doctorado en 2016. En la actualidad realiza una pasantía de posdoctorado en la Poli y el 3 de octubre presentó en Ottawa, Canadá, una propuesta conceptual elaborada por el grupo que coordina Saraiva para unificar la terminología y los criterios de evaluación de la calidad de las informaciones en los archivos online sobre animales, microorganismos, plantas y hongos. La más amplia de las alrededor de 25 bases mundiales es la Plataforma Global de Informaciones sobre Biodiversidad (GBIF, www.gbif.org). Esta plataforma fue creada en 2001 y reúne casi 850 millones de registros de especies, de las cuales 6 millones provienen de Brasil, que figura entre los alrededor de 60 países que conforman esa red.

“Como no existe una base conceptual consensuada, cada grupo de trabajo en este área define la calidad y la evalúa de manera diferente, haciendo imposible la comparación entre resultados”, comenta Saraiva, quien coordina el Núcleo de Apoyo a la Investigación en Biodiversidad y Computación de la USP (BioComp). Lo que propone el grupo de la Poli, en sintonía con expertos de Canadá, Estados Unidos, Australia y Dinamarca, es un lenguaje común que facilite la gestión de calidad de los datos. Según Saraiva, en un estudio que se llevó a cabo con base en la propuesta de la Poli –efectuado por investigadores de diversos países en un grupo de trabajo del Biodiversity Information Standards, una asociación científica internacional que desarrolla modelos de calidad de datos– se identificaron 100 tipos de test de verificación de calidad en las bases de datos. Esos test consisten en programas o subprogramas que indican, por ejemplo, si las coordenadas geográficas de una colecta son correctas. “Aunque los programas tengan el mismo objetivo no podemos comparar los resultados entre ellos, porque los criterios que adoptan son diferentes”, dice. “Nuestra idea es encuadrarlos a todos en un mismo contexto, poniendo en claro los modos de funcionamiento de cada uno”.

Eduardo Cesar y Léo Ramos Chaves Manaosella cordifolia, un árbol de la región norteEduardo Cesar y Léo Ramos Chaves

Esa será la meta conceptual de la plataforma de calidad de datos que el grupo de la Poli desarrollará, a partir de 2018, para el Sistema de Información sobre la Biodiversidad Brasileña (SiBBr, www.sibbr.gov.br). Esta base, que salió al ruedo en 2014, contiene alrededor de 10 millones de registros cuantitativos sobre 155 mil especies de animales y plantas del país. “A pesar de los avances, como la oferta creciente de software abiertos que permiten la publicación de informaciones científicas, todavía hace falta una política nacional de manejo de datos que determine las actividades y los criterios de calidad”, subraya la bióloga Andrea Nunes, coordinadora general de biomas del Ministerio de Ciencia, Tecnología, Innovaciones y Comunicaciones (MCTIC) y directora nacional del SiBBr.

A medida que se vaya avanzando, la plataforma de calidad de datos deberá interactuar con las bases que nutren al SiBBr y establecer modelos comunes de funcionamiento. “Un criterio que no siempre adoptan las bases de datos es que el punto de partida de la definición de calidad está dado por el uso que pretende darle el investigador a la información”, comenta Saraiva, que apela a una analogía para explicarlo mejor. “Los tomates para salsa o para ensalada pueden ser de diferente calidad; para la salsa, los tomates pueden ser más maduros y algo arrugados, mientras que para las ensaladas deben ser frescos, no demasiado maduros”, compara.

Eduardo Cesar y Léo Ramos Chaves Bignonia de invierno (Pyrostegia venusta), una enredadera que crece en casi todo el paísEduardo Cesar y Léo Ramos Chaves

La meta del grupo de la Poli consiste en ayudar al investigador a definir los criterios de selección de datos antes de comenzar una búsqueda, para no tener que filtrar más tarde lo que realmente interesa entre miles de registros acerca de una especie o un grupo de especies y, además, dejar esos criterios expuestos, como guía para el resto de los usuarios. “Si un investigador tan sólo necesita una lista de las especies de un país, no necesitará las coordenadas geográficas exactas de cada localidad, pero esa será una información indispensable si quisiera realizar un estudio sobre la distribución geográfica de los animales o plantas de determinada región”, dice Veiga.

Verificación de errores
La red speciesLink (www.splink.cria.org.br), una de las bases nacionales de biodiversidad, permite la selección de informaciones sobre la abundancia y distribución de especies de microorganismos, algas, hongos, plantas y animales. Esta base, que se desarrolló a partir de 2001 con la ayuda de la FAPESP y contiene 12 colecciones biológicas del estado de São Paulo, se expandió, principalmente a partir del Herbario Virtual de la Flora y de los Hongos, uno de los Institutos Nacionales de Ciencia y Tecnología (CNPq), y hoy en día cuenta con registros de 470 colecciones de Brasil y de otros países. Estas colecciones comparten alrededor de 9 millones de registros de 125 mil especies, de las cuales, 2.756 se encuentran bajo amenaza de extinción.

Eduardo Cesar y Léo Ramos Chaves El escarabajo Cyrtomon luridus, parásito de plantasEduardo Cesar y Léo Ramos Chaves

Del total de registros, un 68% posee las coordenadas geográficas exactas, en el municipio indicado en la colecta, un 23% no contiene información sobre la ubicación de la colecta y un 8% presenta datos imprecisos. Las coordenadas del 1% del total de los registros se encuentran bloqueadas para que los curadores –los expertos responsables de los datos de cada colección– puedan verificarlas. “Si algún dato fuera considerado sensible, como en el caso de las coordenadas geográficas de una especie amenazada de alto valor comercial, la localización o incluso el registro completo puede bloquearse. Le cabe al curador decidir aquello que se compartirá en la red”, dice la ingeniera en alimentos Dora Canhos, directora del Centro de Referencia en Información Ambiental (Cria), de Campinas, que es la institución responsable del desarrollo y mantenimiento de la red speciesLink. “Todo error debe corregirse en su origen. El Cria no altera ningún registro. Una vez que queda incorporada a la red, la información queda a disposición en forma libre y abierta para cualquier interesado.

Millones de estrellas
“Los equipos que trabajan con los datos de los herbarios resultan insuficientes para cribar los datos, verificar la calidad y actualizar los nombres científicos”, dice el tecnólogo Luís Alexandre Estevão da Silva, coordinador del núcleo de computación científica y geoprocesamiento del Instituto de Investigaciones Jardín Botánico de Río de Janeiro. Por eso, la institución ideó e implementó programas de detección automática con 81 filtros de verificación de calidad capaces de brindar información, por ejemplo, que “las coordenadas no coinciden con el municipio que se consigna”. “Nos queda mucho por avanzar, dado que todavía existe gran cantidad de registros duplicados y divergencias en la clasificación de plantas en los herbarios”, dice Da Silva. Su equipo de trabajo desarrolló e implementó en 2005 el Jabot, un sistema de administración de las colecciones científicas de herbarios, que fue liberado para el uso por otras instituciones en 2016 y, actualmente, lo han adoptado otros 28 herbarios de universidades y centros de investigación brasileños.

Eduardo Cesar y Léo Ramos Chaves Rosa del campo o siempreviva (Gomphrena macrocephala), del CerradoEduardo Cesar y Léo Ramos Chaves

“Debemos adoptar métodos para analizar la calidad de los datos mientras los mismos se van produciendo”, dice la ingeniera electricista Cláudia Bauzer Medeiros, docente en el Instituto de Computación de la Universidad de Campinas (Unicamp) y coordinadora del programa eScience de la FAPESP. “Al utilizar datos producidos por otros resulta común que los investigadores no verifiquen la confiabilidad de la información, incluso a sabiendas de que la validez de los resultados de una investigación científica depende de la calidad de los datos”. En ocasiones, añade, “tal comprobación es inviable, por falta de información acerca de la calidad de los datos”.

Aunque las estrategias de control de calidad de datos no estén integradas y estandarizadas, la preocupación por la consistencia de la materia prima de la ciencia –la información– es creciente. Y no sólo en el campo de la biología. El físico colombiano Alberto Molino Benito trabaja desde hace dos años con su equipo en el Instituto de Astronomía, Geofísica y Ciencias Atmosféricas (IAG) de la USP en el desarrollo de programas para extraer información numérica –de manera automática y con gran precisión– de las imágenes que comenzó a captar el telescopio Southern Photometric Local Universe Survey (S-Plus, que traducido significa: registro fotométrico del universo local desde el hemisferio sur), emplazado en Cerro Tololo, en Chile, bajo la coordinación del propio IAG.

Como no existe una base conceptual consensuada, cada grupo define la calidad de manera diferente, dice Saraiva

“Esa información servirá para generar catálogos de estrellas, galaxias, quásares y asteroides, con sus ubicaciones, tamaño, luminosidad, masa y distancia a la Tierra”, comenta Benito. “Estamos terminando de calibrar y validar los programas para que los científicos no tengan que preocuparse de la calidad de los datos, cuando comience la colecta automática de imágenes, al comienzo de 2018”. Con un espejo de 80 centímetros de diámetro, el S-Plus completará la observación del cielo del hemisferio sur en dos años, recopilando informaciones sobre la distribución espacial de millones de estrellas y galaxias.

Artículo científico
VEIGA, A. K et al. A conceptual framework for quality assessment and management of biodiversity data. PLOS ONE. v. 12 (6), p. e0178731. 2017.

Republicar