Imprimir Republish

BIOINFORMÁTICA

Bits, bytes y genes

Brasileños crean programas que simplifican la tarea de armar y analizar genomas

EDUARDO CESARESTweb, ZERG y Sabiá: programas nacidos de proyectos de secuenciamientoEDUARDO CESAR

En septiembre pasado, dos equipos de investigadores brasileños publicaron artículos científicos en revistas internacionales referentes al genoma (el conjunto de genes) de dos organismos: el parásito Schistosoma mansoni, causante de la esquistosomiasis en Brasil, y la bacteria Chromobacterium violaceum, abundante en el río Negro y que tiene potencial de uso biotecnológico. Aunque trabajaron en forma independiente, con organismos y metodologías diferentes, ambos grupos desarrollaron programas de computadora que organizaron y facilitaron la obtención de los datos divulgados en sus escritos.

Del laboratorio de Bioinformática del Instituto de Química de la Universidad de São Paulo (IQ-USP), que participó en el proyecto sobre el gusano de la esquistosomiasis, surgieron dos programas: el ESTweb y el ZERG, disponibles para su descarga gratuita en la siguiente dirección electrónica. Una tercera herramienta – el Sabiá – fue concebida en el Laboratorio Nacional de Computación Científica (LNCC) de Petrópolis, donde funcionó el corazón de la bioinformática de la iniciativa que estudió los genes de la C. violaceum. Por ahora, el uso de este sistema se restringe a los 25 laboratorios de la red nacional que secuenció el genoma de la bacteria. Pero pronto su utilización pasará a ser abierta a todos los interesados.

Secuencias limpias – Cada uno de estos programas ejecuta tareas bastante específicas y sirven para propósitos particulares. El ESTweb, que rindió un artículo científico el 12 de agosto de 2003 en la revista Bioinformatics, recibe y procesa fragmentos de genes activos generados con base en tejidos de un organismo, y los ubica en un banco de datos. A estos trozos de genes se los denomina ESTs, sigla de etiquetas de secuencias expresadas, que sirvieron de inspiración para darle su nombre la programa. El ESTweb retira de los fragmentos de genes todos los elementos innecesarios para el análisis de la secuencia, y de esta forma se obtienen ESTs más limpias. “El programa genera en tiempo real gráficos que muestran la calidad y el grado de redundancia de las secuencias producidas en los laboratorios”, comenta Sergio Verjovski-Almeida, del Instituto de Química de la USP, coordinador de la iniciativa financiada por la FAPESP, que identificó el 92% de los genes expresados delS. mansoni .

La segunda creación del equipo paulista es una herramienta de carácter más analítico. “El ZERG interpreta la salida del BLAST”, dice el biólogo Eduardo Reis, uno de los inventores del software, recurriendo a la jerga bioinformática. El BLAST es un programa de dominio público, popular entre biólogos moleculares y otros profesionales que trabajan con genes y proteínas. Su función consiste en comparar cualquier EST con las secuencias genéticas depositadas en los bancos de datos públicos. Así el investigador descubre si sus ESTs son iguales o similares a otras ya conocidas y, en muchos casos, logra asociar esas secuencias con genes con funciones definidas. Aunque es útil, el BLAST tiene un pequeño problema: en grandes empendimientos, como lo es el proyecto del S. mansoni, genera un informe kilométrico, de difícil comprensión, con muchos datos que deben chequearse.

La solución de ese balance no es tarea para seres humanos, sino para otro software. “Existen programas comerciales que leen la respuesta del BLAST, pero no con la misma precisión y velocidad del ZERG”, dice el programador Apuã Paquola, del Laboratorio de Bioinformática del IQ/ USP. En un artículo publicado el 22 de mayo de 2003 en Bioinformatics, los autores del ZERG, cuyo nombre fue tomado prestado de un juego para computadora, mostraron que su invento es hasta 250 veces más rápido que sus rivales.

El tercer programa, pese a su brasileñísimo nombre, es un acrónimo de una expresión en inglés: Sabiá [Zorzal en portugués] quiere decir System for Automated Bacterial Integrated Annotation. Este programa, que sirve para armar y anotar únicamente genomas de bacterias, fue concebido en el LNCC y utilizado por primera vez durante el trabajo de secuenciamento de la C. violaceum, un proyecto financiado por el Consejo Nacional de Desarrollo Científico y Tecnológico (CNPq).

Es necesario tener alguna noción de ciertos procedimientos básicos del mundo de la genómica para tener también una idea de qué hace el programa. El secuenciamiento de un genoma consiste en determinar el orden en el que aparecen sus pares de bases nitrogenadas, las unidades químicas primordiales que forman la molécula de ácido desoxirribonucleico, el ADN, que suele representárselas con la letras A (adenina), C (citosina), G (guanina) y T (timina).

Como el genoma de un organismo puede ser muy grande para ser secuenciado de una sola vez – el de la C. violaceum tiene 4,7 millones de pares de bases, por ejemplo, – , los investigadores deben romperlo en pequeños trozos. A ejemplo de lo que se hace con las piezas de un rompecabezas, su montaje consiste en juntar en forma correcta estas partes menores, debidamente secuenciadas. “Durante ese proceso de armado, el Sabiá señala las regiones de genoma en las que los datos generados por el secuenciamiento son de buena o de mala calidad”, dice Ana Tereza Vasconcelos, del LNNC, coordinadora del proyecto con la C. violaceum y una de las autoras del software.

El mono y el hombre
Una vez concluido el armado del rompecabezas, el dispositivo inventado por el equipo de investigadores que trabajó con el material genético de la C. violaceum inicia la anotación del genoma. En líneas generales, esta tarea equivale a descubrir qué proteínas son producidas con base en las recetas químicas contenidas en los genes de un genoma. De esta forma se llega a la función (o a las funciones) de un gen.

Gran parte de los datos de anotación deriva de comparaciones. Con el auxilio de programas como el Sabiá y otros, de uso gratuito o pago, los científicos cotejan el material genético identificado en un organismo con secuencias ya conocidas y con función definida, que se encuentran archivadas en bancos de datos públicos. Si en el mono una determinada secuencia lleva a la producción de una proteína cualquiera llamada X, por ejemplo, es probable que una secuencia parecida aparezca en el hombre, y también desencadene la síntesis de la misma proteína X.

Pero, por supuesto, las cosas no así de sencillas, pero éste es el espíritu de la anotación. “El Sabiá funciona en un ambiente computacional que permite cruzar las informaciones de ocho bancos de datos públicos”, dice Ana Tereza. “Se puede incluso comparar genomas enteros”. Para aumentar su autonomía de vuelo, el Sabiá, que será objeto de un artículo científico este año, será perfeccionado. La idea es producir una versión del sistema que sirva también para el armado y anotación de genomas de otros organismos, además de bacterias.

Republicar