Léo Ramos Chaves / Revista Pesquisa FAPESPUn módulo con componentes de la reacción de síntesis de ADN en el laboratorio del IPT, en São PauloLéo Ramos Chaves / Revista Pesquisa FAPESP
La explosión de datos en todo el mundo, generados por diversos dispositivos y en los más variados contextos, ha llevado a los científicos a estudiar el uso de versiones sintéticas de ADN para almacenar la información digital. El ADN, o ácido desoxirribonucleico, es el sistema de almacenamiento de datos de la mayoría de los seres vivos. Se trata de una molécula presente en todas las células y que contiene la información genética de un organismo. Gracias al estudio de materiales genéticos como el ADN preservado en la naturaleza, ha sido posible acceder a la información biológica de los neandertales, homínidos que se extinguieron hace más de 30.000 años, y de los mamuts, que habitaron el planeta hace más de 1 millón de años.
Los beneficios potenciales de esta nueva tecnología son considerables. Según DNA Data Storage Alliance, una asociación que agrupa a empresas de tecnología de todo el mundo con el objetivo de impulsar el ecosistema de investigación e innovación de esta técnica, la capacidad de almacenamiento de datos del ADN es 115.000 veces superior a la de los soportes magnéticos que se emplean hoy en día en los centros de procesamiento de datos, los denominados data centers. En el mismo espacio físico que ocupa un cartucho de cinta magnética LTO-9, capaz de almacenar 18 terabytes (TB), es decir, 18 billones de bytes, es posible guardar en ADN unos 2 millones de TB.
“El data center de Facebook en Oregon (EE. UU.), ocupa una superficie estimada de decenas de miles de metros cuadrados [m2], el equivalente a un gran shopping center, para almacenar una cantidad de datos de alrededor de 1 millón de TB. Ese mismo contenido podría almacenarse en tan solo 5 gramos de ADN, en un dispositivo que cabría en la palma de una mano”, compara el ingeniero electrónico Bruno Marinaro Verona, gerente del Laboratorio de Microfabricación del Instituto de Investigaciones Tecnológicas (IPT) de São Paulo, quien lidera un proyecto de investigación en el área en Brasil.
Más allá de la densidad, el almacenamiento en ADN reúne otros atributos importantes. “Es un sistema sostenible desde una perspectiva ambiental”, subraya el ingeniero electrónico Luis Ceze, de São Paulo, docente de la Escuela Paul G. Allen de Ciencia de la Computación e Ingeniería de la Universidad de Washington, en Estados Unidos. Los centros de procesamiento de datos insumen una enorme cantidad de energía para poder mantener en funcionamiento los equipos y la climatización adecuada de las dependencias en donde los archivos se conservan en discos rígidos (HD) y cintas magnéticas. En cambio, el ADN puede conservarse a temperatura ambiente. Asimismo, los medios de almacenamiento magnético actuales se fabrican con insumos procedentes de la minería de tierras raras y derivados del petróleo, y requieren un reemplazo periódico, en un plazo máximo de 30 años. Los científicos estiman que los datos digitales almacenados en ADN serán legibles durante miles de años.
La evolución de los procesos de almacenamiento de datos digitales es necesaria ante la gigantesca cantidad de información digitalizada generada por el uso creciente de las tecnologías de la información (TI), es decir, el uso de computadoras y teléfonos inteligentes para generar, procesar e intercambiar todo tipo de datos. Según un informe de la consultora estadounidense IDC, en 2010 se generaron en todo el mundo 3 zettabytes (un 3 seguido de 21 ceros) de datos nuevos y copias de seguridad (backups). En 2020, este total saltó a 64 zettabytes (ZB) y las proyecciones indican que dentro de dos años se llegará a 180 ZB.
Tal como señala DNA Data Storage Alliance, este es tan solo el principio de lo que se ha dado en llamar era de la información, en la que la inteligencia artificial e internet de las cosas estarán cada vez más presentes en todas las actividades cotidianas de la gente, desde la salud a la educación, del comercio a la conducción de un vehículo o el manejo de una fábrica. Según la asociación, un solo coche autónomo genera 15 TB de datos brutos en un período de ocho horas. No todos estos datos se archivan, pero se conserva una porción significativa para diversas demandas, como la seguridad pública y el mantenimiento automotor.
Hoy en día estos datos se archivan utilizando arquitecturas de almacenamiento remoto basadas en la nube. “Los data centers consumen alrededor del 1 % de la energía eléctrica producida en todo el planeta. La industria de la TI prevé que el consumo pasará a ser el 30 % de la energía producida a nivel mundial en pocos años”, advierte Hildebrando Lima, director de Investigación y Desarrollo de la empresa Lenovo en Brasil. “Es necesario crear una alternativa que disminuya este impacto, y la técnica de almacenamiento en ADN es la apuesta más prometedora”.
Los científicos implicados en el desarrollo de la metodología de almacenamiento en ADN reconocen que esta solución tardará en estar disponible para el público. Las previsiones apuntan a la próxima década. Aún hay incertidumbre en cuanto a los procesos que se utlizarán. “Lo que podemos afirmar es que el almacenamiento de datos digitales en ADN es viable”, dice la ingeniera electrónica brasileña Karin Strauss, gerente sénior de investigación de Microsoft Research, en Redmond, Estados Unidos. “Ya lo hemos concretado en laboratorio y todo indica que el proceso podría llevarse a cabo a escala comercial en forma económica, pero aún nos queda mucho por delante hasta alcanzar ese objetivo”. Uno de los fundadores de DNA Data Storage Alliance, Microsoft Research, es el laboratorio de investigación de la multinacional de TI.
Léo Ramos Chaves / Revista Pesquisa FAPESPPrototipo de microchips sintetizadores de moléculas de ADN desarrollado por el consorcio IPT-LenovoLéo Ramos Chaves / Revista Pesquisa FAPESP
La producción de ADN sintético y el almacenamiento de datos en él ya son una realidad en la industria de la biotecnología para su uso en el área de la salud, pero la escala de producción es baja y la velocidad del proceso es lenta frente a las necesidades de la industria de TI. “Actualmente es posible escribir decenas de megabytes [MB] por segundo en un HD [disco duro] magnético convencional. Pero guardar un solo MB en ADN nos lleva una jornada de trabajo completa”, compara Verona, del IPT. “Todas las investigaciones apuntan al mismo objetivo: establecer las mejores técnicas de almacenamiento de datos en ADN y perfeccionarlas”, añade Ceze, de la Universidad de Washington.
El proceso de almacenamiento de datos en ADN no requiere de manipulación genética ni de células de organismos vivos. El ADN se fabrica a través de una síntesis química y cada molécula se produce en la medida exacta en que son generados los archivos de datos. Esto significa que, para guardar 1 TB de información, será necesario sintetizar un conjunto de moléculas con esta misma capacidad de almacenamiento (véase la infografía).
Estos nuevos dispositivos estarán constituidos por estructuras capaces de sintetizar y secuenciar las cadenas de ADN, que contienen la información digital de interés. Una de las posibilidades de diseño sería que contenga microcavidades de unos pocos nanómetros de profundidad, en donde se sintetizarían las moléculas de ADN. Los científicos denominan bits to base a la primera etapa de fabricación del archivo, que consiste en convertir los bits –el sistema binario 1 y 0 que se utiliza en computación para representar caracteres, cifras e imágenes–, mediante programas de informáticos, en las cuatro bases nitrogenadas que componen la molécula de ADN: adenina (A), timina (T), citosina (C) y guanina (G) (lea en Pesquisa FAPESP, edición nº 235). En la molécula, las bases nitrogenadas tienen la función de formar los dos filamentos en espiral, lo que se conoce como doble hélice, que constituyen el ADN.
Para ejemplificarlo: los bits 00 pueden codificarse como base A; los bits 01 como base T; los bits 10 como C; y los bits 11 como G. Cuando se desea acceder a los datos y leer los archivos, lo único que hay que hacer es decodificarlos, es decir, convertir la base nitrogenada en bits, lo que en la jerga técnica se denomina realizar el base to bits. Se puede acceder a la información almacenada en ADN vía internet o localmente. La conversión de bases a bits se efectúa mediantr un proceso computarizado y ágil, aunque por ahora más lento que el tiempo de lectura de los archivos magnéticos tradicionales.
Léo Ramos Chaves / Revista Pesquisa FAPESPPreparación de reactivos para su inyección en el dispositivo de síntesis de ADN del Laboratorio de Microfabricación del IPTLéo Ramos Chaves / Revista Pesquisa FAPESP
El principal reto que deben resolver los investigadores consiste en mejorar los métodos de síntesis química empleados para escribir los códigos en las bases nitrogenadas y, simultáneamente, producir las moléculas de ADN sintético.
Existen dos procesos de bioingeniería establecidos. El más antiguo es la síntesis química de fosforamidita, creada en la década de 1980 por el bioquímico estadounidense Marvin H. Caruthers. Es el proceso predominante para las aplicaciones en biomedicina. El otro camino posible es la síntesis enzimática, que ha venido siendo perfeccionada por varios grupos de investigación durante los últimos 15 años, pero aún no ha alcanzado escala comercial.
La síntesis enzimática utiliza moléculas orgánicas proteicas que funcionan como catalizadoras de las reacciones químicas, en otras palabras, aceleran la velocidad de los procesos. Una ventaja de este proceso reside en el uso de reactivos acuosos no tóxicos. Así se genera un menor impacto ambiental comparado con la síntesis por fosforamidita, que emplea reactivos fósiles. Para Ceze, la síntesis enzimática, una tecnología aún incipiente, posee un mayor potencial de evolución y ha de prevalecer.
En Microsoft se investigan las tecnologías de almacenamiento en ADN desde 2015, en colaboración con el Laboratorio de Sistemas de Información Molecular de la Universidad de Washington. Entre los diversos estudios conjuntos que generaron artículos científicos, Strauss destaca dos. En 2019, un paper publicado en la revista Nature Scientific Reports apuntó la factibilidad de automatizar la síntesis química, prescindiendo del laborioso proceso de pipeteo (transferencia de líquidos) manual del ADN, tal como viene haciéndose hasta ahora. “La automatización permitirá escalar la producción y reducir los costos del proceso de almacenamiento en ADN”, estima la investigadora.
Meg Roussos / Bloomberg via Getty ImagesEl centro de procesamiento de datos de Facebook en Prineville, Oregon [EE. UU.]Meg Roussos / Bloomberg via Getty Images
En 2021, otro artículo conjunto de las dos instituciones publicado en la revista
Science Advances presentó un sistema de grabación de ADN a nanoescala que se vale de un método de control del ambiente molecular capaz de permitir la generación simultánea (en paralelo) de una gran cantidad de secuencias de ADN exclusivas. “El resultado presentado en este trabajo fue la miniaturización de la unidad de escritura de una secuencia y del proceso químico que la controla, de manera tal que quepan más de estas unidades en un mismo chip”, destaca Strauss. Las cadenas actuales no superan las 300 bases nitrogenadas, lo que significa que se graban menos de 30 bytes (un conjunto de ocho bits) por secuencia.
En Brasil, el único grupo de investigación que forma parte de la Alianza para el Almacenamiento de Datos en ADN es el resultado de una asociación entre el IPT y el fabricante chino de dispositivos electrónicos Lenovo. Este proyecto, bautizado Prometheus, se puso en marcha en 2021 bajo la coordinación de Verona. El equipo multidisciplinario está compuesto por 40 investigadores, 13 de ellos magísteres y 21 doctores, entre los que se cuentan biólogos e ingenieros de computación, moleculares, químicos y de materiales. El IPT es el único colaborador mundial de Lenovo para el desarrollo de tecnologías de almacenamiento en ADN.
Según Lima, de Lenovo, esta alianza ha generado cuatro depósitos de patentes internacionales, una de ellas resultado del trabajo del equipo de codificación y decodificación de los datos, dos en síntesis química y una en síntesis enzimática. “Tenemos otras seis investigaciones en proceso y pronto alcanzarán la fase de solicitud de patente”, revela el ejecutivo.
Verona estima que la tecnología de almacenamiento de datos en ADN irá avanzando gradualmente y, en un primer momento, no estaría disponible para computadoras y teléfonos inteligentes. De entrada, las soluciones estarán orientadas a lo que se denomina almacenamiento en frío, compuesto por datos a los que los usuarios no acceden habitualmente en su vida cotidiana –una especie de archivo muerto digital–, como historiales de todo tipo, álbumes de fotos y videos. En los centros de procesamiento de datos actuales, estos archivos se almacenan en cintas magnéticas.
Los datos de acceso frecuente, los llamados datos calientes, actualmente se archivan en HD. “Todavía no hay una proyección fiable sobre cuándo el almacenamiento en ADN será capaz de erigirse como una alternativa para el almacenamiento de datos calientes”, dice Verona. Para Ceze, en el futuro varios sistemas de almacenamiento de datos convivirán en simultáneo, lo que hará posible un mejor aprovechamiento de sus respectivas características para cada finalidad.
Artículos científicos
TAKAHASHI, C. N. et al. Demonstration of end-to-end automation of DNA data storage. Nature Scientific Reports. 21 mar. 2019.
NGUYEN, B. H. et al. Scaling DNA data storage with nanoscale electrode wells. Science Advances. 24 nov. 2021.
Republicar