ELIZABETH PAPADOPOULOS / GETTYIMAGES / PASIEKA / SCIENCE PHOTO LIBRARY / SPL DC / LATINSTOCKLa explicación de los fenómenos de la naturaleza mediante ecuaciones matemáticas es una tarea rutinaria y que ya está incorporada a los estudios de la física, la química y la propia matemática. La biología, en tanto, tiene un historial menor en ese sentido. Esa relación es seguida de cerca por varios grupos de estudio de Europa y Estados Unidos, que buscan una vinculación de los genomas de los seres vivos con las estructuras matemáticas, con el objetivo comprender mejor la formación de la vida en el planeta. Pero la delantera a la hora de hallar ese vínculo le cupo a un grupo de investigadores de la Universidad Estadual de Campinas (Unicamp) y de la Universidad de São Paulo (USP) que encontraron una relación matemática entre un código numérico y la secuencia del ADN, el ácido desoxirribonucleico, que carga los genes dentro de las células. Otros investigadores habían sugerido anteriormente esa relación, pero no habían logrado probarla. Los brasileños descubrieron que las bases nitrogenadas timina (T), guanina (G), citosina (C) y adenina (A) se organizan de acuerdo con una lógica numérica. “La distribución de esas bases posee un código matemático que prevaleció en el transcurso de la evolución de los seres vivos”, dice el profesor Márcio de Castro Silva Filho, de la Escuela Superior de Agricultura Luiz de Queiroz, de la USP. “Descubrimos que una proteína, al perder la función biológica debido a una mutación, por ejemplo, deja de ser representada por una estructura matemática”, dice Silva Filho, uno de los coordinadores del grupo.
Los investigadores no desarrollaron un código nuevo para explicar la secuencia de ADN. Verificaron que existe una relación entre ciertas secuencias de ADN con el código corrector de errores (ECC, sigla de error-correcting code), que corresponde a ecuaciones matemáticas utilizadas en todo proceso digital, y es empleado en sistemas de comunicación y de telecomunicaciones, en memorias de computadoras y memorias flash de pen drives para corregir ruidos o defectos que surgen en las transmisiones. El código también es conocido con las letras BCH, que son las iniciales de sus descubridores –los indios Raj Chandra Bose y Dwijendra Kumar Ray-Chaudhuri y el francés Alexis Hocquenghem–, y no solamente detecta el error sino que también efectúa la corrección. La atribución de la asociación de códigos de corrección de errores a las secuencias de ADN no es nueva. Es objeto de investigación desde la década de 1980, y uno de los principales estudiosos del tema es el profesor Hubert Yockey, quien trabajó en la Universidad de California en Berkeley, Estados Unidos, y publicó dos libros: Information theory and molecular biology, en 1992, e Information theory, evolution, and the origin of life, en 2005, ambos editados por la Cambrigde University Press. Otro investigador del área es Gérard Battail, docente jubilado de la Escuela Nacional Superior de Telecomunicaciones de Francia, que ha escrito artículos en los cuales plantea la relación entre código el corrector de errores y el genoma. Ellos han demostrado el proceso y postulado hipótesis, pero no habían exhibido las relaciones matemáticas con el ADN. Los brasileños lograron establecer esa relación en las secuencias del ácido ribonucleico mensajero (ARNm) generadores de las proteínas.
“Al conocer la estructura matemática de la proteína es posible alterar el orden de las bases y también corregir las mutaciones o errores que puedan ocurrir para volver a la condición normal de una proteína”, dice el profesor.
Un problema molecular
La capacidad de corregir una mutación o un error celular podría en el futuro valerse de una solución matemática para actuar sobre la falta de producción de insulina de las células del páncreas, por ejemplo, corrigiendo errores en un gen específico. “Sería posible detectar la estructura matemática de las mutaciones y en dónde sucedieron las mismas, y quizá corregir ese problema molecular para que el organismo vuelva a producir insulina, revertiendo las estructuras anteriores. Otra posibilidad sería fabricar proteínas con base en el código matemático o incluso para encontrar proteínas no conocidas existentes en las células”, dice el profesor Reginaldo Palazzo Júnior, de la Facultad de Ingeniería Eléctrica y de Computación (Feec) de la Unicamp, otro coordinador del grupo. “La corrección o la forma de revertir el error en las células ocurre de la misma manera que en un disco rígido (HD), que tiene un sector dañado y el ECC reconstituye las informaciones.”
Con tantas posibilidades de uso en la industria, más allá del significado científico importante del descubrimiento, los investigadores resolvieron, antes de publicar la novedad en periódicos científicos, depositar una patente internacional por el Tratado de Cooperación en Patentes (PCT, por sus siglas en inglés) en diversos países, y otra en Estados Unidos, con financiamiento de la FAPESP y gestión de la Agencia de Innovación de la Unicamp y de la Agencia USP de Innovación. Los laboratorios del mundo podrán usar, en caso de que licencien la patente, las estructuras matemáticas que el grupo descubrió, posiblemente bajo la forma de un software, para probar proteínas en una amplia gama de productos. “Estas informaciones son importantes para desarrollar vacunas, medicamentos o proteínas para la elaboración de quesos y enjuagues de ropa, por ejemplo”, dice el profesor Silva Filho. Actualmente se efectúa una alteración en la secuencia de ADN que codifica una proteína y después se realizan las pruebas de laboratorio para verificar la eficacia de la reacción en un experimento de ensayo y error. Con las ecuaciones matemáticas será posible verificar la afinidad y la estabilidad de la proteína en un trabajo preliminar tendiente a verificar mutaciones y, posteriormente, chequearlas a partir de experimentos de laboratorio, a los efectos de confirmar si la mutación en la secuencia de ADN dio el resultado esperado. “Si la estructura matemática no se mantiene, la alteración no se efectivizará y no producirán los resultados esperados.”
El descubrimiento de la existencia de un código matemático que transcribe la secuencia de ADN sucedió casi por casualidad y comenzó cuando el profesor Palazzo les sugirió un audaz objetivo a dos alumnas de doctorado, Luzinete Cristina Bonani Faria y Andrea Santos Leite da Rocha, a quienes dirige en la Feec y que se recibieron en la Pontificia Universidad Católica de Campinas (Puccamp), con maestrías realizadas en la Unicamp. Deberían buscar informaciones que transitan dentro de una célula. “Dentro de la mitocondria, un órgano encargado de la respiración celular, existen moléculas de ADN cuya función es sintetizar ciertas sustancias, pero la mitocondria no tiene todas las proteínas y debe por ello solicitar proteínas extras producidas por genes ubicados en el núcleo, de manera tal de realizar las funciones en la organela. En ese caso, para los matemáticos, la proteína es información y existe un código patrón para transmitirla”, explica el profesor Palazzo. El modelo presentado por los investigadores brasileños se ajusta a cualquier secuencia de ADN productora de proteínas dentro de la célula.
Palazzo es un experto en la llamada teoría matemática de la comunicación, un área de estudio que investiga la transmisión de todo tipo de información y sus códigos. También llamada teoría de los códigos, la misma analiza las formas de transmisión independientemente del significado. De este modo, no importa la palabra que se transmite, sino como ésta es enviada desde un emisor A hasta un receptor B, dentro de un contexto matemático. “Esta teoría fue postulada por Claude Shannon [matemático e ingeniero electrónico norteamericano] en 1948”, recuerda Palazzo.
Para el estudio de Andrea y Luzinete, Palazzo sugirió que ellas consultasen inicialmente a los profesores de la Unicamp, del área de la Facultad de Ciencias Médicas (FCM), para encontrar componentes biológicos y profundizar en el tema. Al cabo de muchas búsquedas, escucharon la sugerencia del profesor Anibal Vercesi, de la FCM, para consultar al profesor Márcio de Castro Silva Filho, de la Esalq. “Fuimos a conversar con él y establecimos una unión de intereses”, dice Palazzo. “Dimos inicio a un diálogo teniendo de un lado a los matemáticos y a un ingeniero eléctrico, y del otro estaba yo, un genetista especializado en transporte de proteínas”, recuerda Silva Filho.
La primera muestra de ADN investigada por las investigadoras de la Unicamp fue de la Arabidopsis thaliana, una planta de la familia de la mostaza, que sirve de modelo para estudios genómicos. A partir de allí, ellas trabajaron durante seis meses. “Empezaron a probar varios elementos matemáticos para intentar encontrar alguna sistematización con relación al genoma”, explica Palazzo, que contó también con la colaboración en el estudio del ingeniero de computación João Henrique Kleinschmidt, ex alumno de doctorado y actual docente de la Universidad Federal del ABC, con sede en Santo André, en la Región Metropolitana de São Paulo. “Un día ellas me llamaron a la Unicamp y me mostraron los resultados. Cuando me di cuenta lo que era me quedé mudo. Pensé que fuese una coincidencia y pasamos a repetir el trabajo usando otros genomas, el del hombre, el de bacterias, hongos y plantas. Descubrimos que es un proceso universal”, comenta Silva Filho.
Para entender el lenguaje
Al final de 2009, enviaron un artículo a las revistas Nature y Science, pero ambas lo rechazaron diciendo que era algo muy específico. “Creo que no entendieron el lenguaje matemático del paper“, dice Silva Filho. “Esto forma parte de la dificultad de la charla entre biólogos, ingenieros, médico, etc.”, dice Palazzo. Entonces resolvieron enviarlo a la revista Electronics Letters, que en tres semanas aceptó el trabajo y lo eligió como el mejor artículo de febrero de este año, poniéndolo en la tapa del mismo mes. Y ellos empezaron a mostrar el estudio en congresos internacionales de teoría de la informaciónm, y presentarán nuevos resultados con informaciones más detalladas y con otras herramientas matemáticas. En el artículo de Electronics Letters, “DNA sequences generated by BCH codes over GF(4)”, o “Secuencias de ADN generadas con el código BCH sobre GF(4)”, presentaron una parte del trabajo utilizando la estructura matemática llamada cuerpo algebraico de Galois, mientras que nuevos resultados emplean la estructura de anillo de Galois. En una simplificación, podríamos decir que en relación al cuerpo el producto de dos números distinto de cero resulta en un número distinto de cero, mientras que en la estructura de anillo el producto puede ser cero. Para los matemáticos eso marca una gran diferencia en la presentación de los resultados. Hasta ahora han presentado solamente los resultados en cuerpo.
El logro de los investigadores brasileños constituye una solución importante y una novedad para la biología, que así da inicio una nueva fase en que los fenómenos que estudia pasan a ser analizados mediante métodos cuantitativos. “En 1999, la Academia Real de Suecia apuntó que uno de los avances de la ciencia en el nuevo siglo sería la incorporación mayor de la matemática a los estudios de la biología”, recuerda Silva Filho. Pero, para ello, tanto los investigadores brasileños como Battail y Yockey coinciden en que se requiere un mayor diálogo entre biólogos, matemáticos e ingenieros electrónicos. “Como ingeniero, estoy convencido de que la teoría de la información constituye una herramienta adecuada para el intercambio con la biología molecular”, escribió Battail en una presentación del libro de Yockey en 2006. “Aún estamos lejos de una interdisciplinariedad que haga posible el diálogo entre áreas en proyectos de este tipo. Pero hemos dado un importante paso”, dice el profesor Palazzo.
El proyecto
Código matemático de generación y decodificación de secuencia de ADN y proteínas: utilización en la identificación de ligantes y receptores (n° 2008/04992-0); Modalidad Programa de Apoyo a la Propiedad Intelectual (Papi); Coordinador Márcio de Castro Silva Filho – USP; Inversión R$ 13.200,00 y US$ 20.000,00 (FAPESP)
Artículo científico
FARIA, L.C.B., et al. DNA sequences generated by BCH codesover GF(4). Electronics Letters. v. 46, n. 3, p. 202-03. fev. 2010.