La estructura matemática del ADN : Revista Pesquisa Fapesp

castelli_equacao1_final sandro castelliUn grupo de investigadores brasileños de las universidades de Campinas (Unicamp) y de São Paulo (USP) están revelando en artículos científicos que las secuencias genéticas pueden tener una estructura matemática similar a los Códigos Correctores de Errores (ECC, la sigla en inglés para error-correcting codes) que se emplean tanto en el sistema de transmisión como en el de grabación digital. Los ECCs son un conjunto de comandos insertos en el software instalado en los chips de las computadoras, en dispositivos de telecomunicaciones, televisores y smartphones para corregir información digitales defectuosa durante el transcurso de una conversación telefónica o, por ejemplo, en el almacenamiento de datos en el disco rígido de una computadora.

La misma lógica matemática, según los investigadores, se encuentra presente en la formación del ADN, el ácido desoxirribonucleico que cobija los genes en las células y todas las instrucciones para el desarrollo y sostén de un ser vivo. En el estudio, ellos compararon las ecuaciones algebraicas de un código corrector de errores con ciertas secuencias del ADN, atribuyéndole una lógica a los nucleótidos que conforman el genoma ‒timina (T), guanina (G), citosina (C) y adenina (A)‒ y descubrieron que existen patrones que ligan al nucleótido con un número. De este modo, dependiendo del tipo de secuencia, el A está representado por el 0, el C es el 2, el G es el 1, y al T, le corresponde el 3, por ejemplo. En el lenguaje digital, conformado por bits, las informaciones se traducen como 0 y 1. “Demostramos que el ADN presenta secuencias que siguen estructuras matemáticas y las mismas reglas de la comunicación digital”, comenta Márcio de Castro Silva Filho, del Departamento de Genética de la Escuela Superior de Agricultura Luiz de Queiroz (Esalq), de la USP. “La secuencia del ADN no es aleatoria, sigue un modelo”, dice Castro Silva.

El estudio más reciente del grupo se publicó en julio en la revista Scientific Reports, de la misma editorial que publica la revista Nature. En la introducción, los investigadores escribieron que los sistemas de comunicación biológica y digital exhiben similitudes en relación con los procedimientos correspondientes empleados para transmitir la información desde un punto a otro. Según ellos, la información contenida en el ADN se copia (transcripción) en forma de ARN, que encauzará el ordenamiento de los aminoácidos en las proteínas necesarias para el funcionamiento de la célula con una lógica matemática. En el estudio, los científicos presentan una herramienta informática que apunta a comprender la vía evolutiva del código genético al analizar, por ejemplo, a la Arabidopsis thaliana, una especie vegetal modelo en estudios genéticos, y la formación de los nucleótidos en conglomerados de tres letras a los que se denomina codón. En casos raros, ese agrupamiento biológico ‒TGA, por ejemplo‒ reveló diferencias que no concordaban con los resultados que presenta el ECC.

sandro castelliLas letras y número en rojo indican una mutación en la secuencia genéticasandro castelli

Cuando presentó el problema en el Congreso Brasileño de Genética, en 2011, Castro Silva escuchó una pregunta del biólogo Everaldo Barros, de la Universidad Católica de Brasilia, que le sirvió de ayuda para hallar un camino. Barros quería saber si aquella alteración en un codón del ADN del camote no correspondía a un código ancestral. Castro Silva y el ingeniero electrónico Reginaldo Palazzo Júnior, de la Facultad de Ingeniería Eléctrica y de Computación (FEEC) de la Unicamp, otro de los coordinadores del grupo, se abocaron a la búsqueda de una respuesta. Junto con las doctorandas Luzinete Cristina Bonani Faria y Andréa Santos Leite da Rocha, demostraron que la diferencia detectada entre la secuencia derivada del código de errores para esa especie es una mutación que no incide en las ecuaciones matemáticas del genoma primigenio de la batata, que se encuentra en secuencias de organismos más antiguos, tales como las algas prymnesophytes o en variantes mitocondriales ancestrales del código genético. La mitocondria es un orgánulo de la célula que conserva vestigios del material genético arcaico. Por eso, tan sólo el ADN más antiguo encaja con esa ecuación.

“La secuencia del gen que codifica la subunidad delta de la proteína F1-ATPasa de la batata presenta el codón TGG que codifica al aminoácido triptófano. Con todo, la secuencia que genera el código matemático para el codón triptófano era TGA, lo cual introduciría un stop en la síntesis de la proteína, inviabilizando su función. En principio, esa alteración generada por el código matemático estaría equivocada”, dice Castro Silva. Cuando verificamos el aminoácido triptófano que se encuentra allí ancestralmente, codificado por el codón TGA, la ecuación cerró, y entonces comprendimos que lo que allí ocurrió fue una mutación”, dice Palazzo. Esta clase de mutación ya se conocía a través del proceso bioquímico, pero nunca se la había identificado mediante un proceso matemático.

Los investigadores están realizando ahora un estudio filogenético para conocer más acerca de la evolución de las especies desde el punto de vista matemático y biológico. Ellos analizan las secuencias genéticas para comprobar si las mutaciones halladas presentan en los individuos características relevantes para la funcionalidad de la especie. Los estudios actuales se están llevando a cabo en genomas de plantas y animales para confirmar si el modelo matemático presenta efectivamente una relación estricta con lo que ocurre en la biología.

El hallazgo condujo al grupo a depositar una patente internacional del modelo de uso del sistema que ellos desarrollaron, que ya les fue concedida en Estados Unidos. “Esa estructura matemática sería importante en el área de la ingeniería de proteínas para la producción de organismos genéticamente modificados, nuevos medicamentos, vacunas y alterar la secuencia del ADN en futuros sistemas de terapia génica, o, incluso, para la producción y descubrimiento de nuevas proteínas a partir del código matemático”, explica Castro Silva, un ingeniero agrónomo con maestría y doctorado en genética y biología molecular, y experto en transporte de proteínas.

También sería posible, en el futuro, en un tratamiento contra la diabetes, por ejemplo, el estudio de los genes ligados a la enfermedad por medio de una estructura matemática, y su corrección para que ese problema desaparezca. Castro Silva avizora que la industria farmacéutica obtendrá grandes beneficios con esta nueva forma de concebir al ADN, pues tanto la comprensión de las enfermedades como la formulación de medicamentos con un blanco más específico de alcanzar se verán facilitados por el uso del código matemático.

Alteraciones secuenciales
Entre los matemáticos y los científicos de la computación, el código que utilizaron los investigadores brasileños se conoce por las letras BCH, las iniciales del francés Alexis Hocquenghem y de los indios Raj Chandra Bose y Dwijendra Kumar Ray-Chaudhuri, quienes lo descubrieron entre 1959 y 1960. El BCH es tan sólo uno de los códigos correctores de errores existentes. Mediante la utilización de ese código, biólogos, bioquímicos y farmacéuticos, posiblemente con la colaboración de matemáticos, podrán efectuar análisis preliminares con las secuencias en computadora para testear la alteración de aminoácidos, proteínas y mutaciones, y recién entonces pasaría al laboratorio para comprobar si el resultado está correcto. “La existencia de una estructura matemática en las secuencias de ADN implica una complejidad computacional enorme, pero factible para la realización de análisis y previsiones de mutaciones”, dice Palazzo, quien es ingeniero electrónico y se desempeña en las áreas de teorías de la información y codificación. En la actualidad, este proceso de alteración para la producción de un organismo modificado genéticamente o de un medicamento se lleva a cabo mediante pruebas de laboratorio extensivas. La función del código matemático en los procesos biotecnológicos consistirá en minimizar la aparición de errores en el núcleo de la célula, luego de la transcripción génica del ADN en ARN, el ácido ribonucleico que rige la síntesis de la proteína en los ribosomas.

La posibilidad de asociar los códigos de corrección de errores con las secuencias del ADN no es nueva. Uno de los principales estudiosos del tema es el profesor Hubert Yockey, quien trabaja en el área desde la década de 1980 en la Universidad de California en Berkeley, Estados Unidos. Otro investigador del área es Gérard Battail, docente jubilado de la Escuela Nacional Superior de Telecomunicaciones, en Francia, quien publicó varios artículos donde propone la relación entre el código de corrección de errores y el genoma. Ellos han demostrado el proceso y esgrimido hipótesis, pero no presentaron las relaciones matemáticas concretas con el ADN. Los brasileños lograron establecer esa relación en las secuencias genéticas productoras de proteínas. “Al conocer la estructura matemática del gen que codifica la proteína, es posible alterar el orden de las bases y también corregir las mutaciones o errores que puedan ocurrir para que la misma retorne a la condición original de una proteína”, dice Castro Silva.

El estudio inicial surgió con Palazzo, quien sugirió las dos doctorandas, en 2008, el desafío de elaborar un modelo para la transmisión de la información, en el caso de las proteínas, entre el núcleo celular y la mitocondria. Para ello, Bonani y Leite se contactaron con Castro Silva, en la Esalq. El diálogo fue fructífero y ambas comenzaron a testear algunos modelos matemáticos de sistemas de comunicación con el objetivo de hallar uno que se adecuara al modelo biológico. Luego de algunos meses, ellas le mostraron el resultado a Castro Silva, quien, al principio, supuso que tan sólo habría una coincidencia entre las secuencias generadas por el ECC y la biológica en relación con los aminoácidos. Con el avance de la investigación, se fueron realizando estudios de las secuencias de ADN en diferentes seres vivos y el resultado se mantuvo, independientemente de la especie. El hallazgo también contó con la participación del entonces doctorando João Henrique Kleinschmidt, ingeniero de la computación y actualmente profesor de la Universidad Federal del ABC (UFABC), y, más recientemente, de la bióloga Larissa Spoladore, doctoranda de la Esalq, y del biólogo Marcelo Brandão, docente de la Unicamp.

En 2009, Castro Silva, Palazzo, Bonani y Leite enviaron un artículo a la revista Electronics Letters, que fue publicado en la edición de febrero de 2010 (lea en Pesquisa FAPESP, edición nº 178). “Ahora, con la publicación en la Scientific Reports creemos que la comunidad mundial del área de las ciencias biológicas podrá interesarse más” dice Castro Silva. “Hasta donde sabemos, no hay ningún otro grupo dedicándose a una investigación en este sentido, según la literatura abierta, porque podría haber alguien de la industria farmacéutica, en forma cerrada, desarrollando algo al respecto”.

“Tal como sucede con diversos otros hallazgos científicos, éste transitará un largo camino hasta que se lo acepte y pueda utilizarse. Ellos han dado un salto que, sin lugar a duda, constituye la ruptura de un paradigma”, dice el biólogo Rogério Margis, docente del Centro de Biotecnología de la Universidad Federal de Rio Grande do Sul (UFRGS). “Supongo que surgirán nuevos desafíos con el descubrimiento de este modelo que trasciende la secuencia lineal de las bases y agrega otro manto de complejidad y de patrones de código en la molécula de ADN. Para expandir este tipo de análisis será necesario contar con una gran infraestructura informática”, comenta Margis. “Por ahora, los estudios de ellos no han tenido el impacto y la repercusión esperada en la comunidad científica. Uno de los problemas radica en que el estudio, si bien es único, abarca distintas áreas, tales como la biología y la matemática, que interactúan escasamente”, dice.

“Ya he presentado los estudios en eventos realizados en el exterior, pero creo que suscitan cierta desconfianza, y por razones. El tema es extremadamente complejo, poca gente logra desenvolverse en ambas áreas, la genética y los códigos correctores de errores, el grupo está conformado por brasileños y el trabajo de 2010 se divulgó en una revista del área de la ingeniería eléctrica”, explica Castro Silva. El interés mayor por los estudios, según él, partirá de los que trabajan en biología molecular y biotecnología. Por el lado de la matemática, serían los grupos de teoría de la información y la comunicación. Pero eso sólo sucederá si hubiera una integración multidisciplinaria, tal como ocurrió en el caso del descubrimiento.

Proyectos
1. Código matemático de generación y decodificación de la secuencia del ADN y proteínas: utilización en la identificación de ligandos y receptores (n° 2008/04992-0); Modalidad Programa de Apoyo a la Propiedad Intelectual (Papi); Investigador responsable Márcio de Castro Silva Filho (USP); Inversión R$ 13.200,00 y US$ 20.000,00
2. Herbivory and intracellular transport of proteins (nº 2008/52067-3); Modalidad Proyecto Temático; Investigador responsable Márcio de Castro Silva Filho (USP); Inversión R$ 1.392.217,77 y US$ 169.187,06
3. Biología de sistemas aplicada a la agricultura: análisis de transcriptomas e interactomas (nº 2011/00417-3); Modalidad Programa Jóvenes Investigadores en Centros Emergentes; Investigador responsable Marcelo Mendes Brandão (Unicamp); Inversión R$ 199.169,39 y US$ 3.846,15.

Artículos científicos
BRANDÃO, M. M., et al. Ancient DNA sequence revealed by error-correcting codes. Scientific Reports. v. 5, n. 12051. jul. 2015.
FARIA, L. C. B., et. al. Transmission of intra-cellular genetic information: A system proposal. Journal of Theoretical Biology. v. 358, p. 208-31. oct 2014.
FARIA, L. C. B., et al. Is a Genome a Codeword of an Error-Correcting Code? PLOS ONE. v. 7, n. 5, e 36644. may. 2012.
FARIA, L. C. B. et. al. DNA sequences generated by BCH codes over GF(4). Electronics Letters. v. 46, n°. 3, p. 202-3. feb 2010.

Republicar

Republish