Phil Green, matemático, 48 anos, trabalha em Seattle, na Universidade de Washington, como Leroy Hood; e é o nome mais importante entre os pesquisadores de bioinformática – a nova especialidade inerente à transformação da Biologia numa ciência que lida com grandes quantidades de dados, produzidos em massa por seqüenciadores automáticos de grande capacidade. Doutor Green e seus colaboradores criaram a maior parte das ferramentas em uso nos programas genoma. Das soluções que conseguirem encontrar, daqui para a frente, para tornar automáticas mais e mais tarefas típicas do seqüenciamento de moléculas de DNA, depende a rapidez com que os resultados serão alcançados e sua precisão. A profundidade da nova ligação entre as ciências da computação e a Biologia,e a forma pela qual ela se dá, são o assunto da conversa com o professor norte-americano.
Um dos desafios da biologia molecular contemporânea é ligar duas linguagens – a da biologia e a das ciências da computação. O senhor pensa que este é realmente um dos problemas importantes da área?
Sim. Vou exemplificar com o meu caso. Fui treinado como matemático, mas desde a escola secundária me interesso por genética – um dos aspectos mais matemáticos da Biologia. O que está acontecendo agora na Biologia é que ela está se tornando um disciplina mais quantitativa, como a Química e a Física. Esta tendência já se delineava há algum tempo, mas acelerou-se bastante nos últimos dez anos, quando seqüenciar o DNA tornou-se mais e mais importante. Muito mais informação biológica tem sido gerada, e de muitos tipos. Um novo problema emergiu: como analisar os dados, qual o método quantitativo adequado para fazê-lo. Se olharmos para o futuro desde esse ponto de vista, nós estamos no começo do caminho que vai tornar a Biologia, de fato, uma ciência quantitativa.
Nos projetos genoma, tentamos identificar diferentes componentes moleculares presentes nas células – as proteínas em particular. Quando dispusermos dessa lista de componentes, então o desafio – aliás, muito maior do que o desafio de seqüenciar o DNA – será entender como esses componentes interagem entre si para fazer um organismo. Para isso, será preciso usar não só as idéias da ciência da computação, mas modelamento matemático, modelamento estatístico, e desenvolver métodos inteiramente novos para entender como funciona a interação entre as moléculas. Até agora, muitos biólogos chegavam à Biologia porque queriam ser cientistas, mas sentiam-se um tanto desconfortáveis com os métodos quantitativos. A Biologia foi o campo ideal para alguém que não queria trabalhar com números ou computadores, mas agora, tudo mudou. É um dado cultural.
Mas o senhor também não é um matemático no sentido clássico…
É verdade. Há uma transição a ser feita também para os matemáticos. Nós tendemos a idealizar os problemas e sua formulação. Mas quando você começa a falar de dados reais, de organismos reais na natureza, moléculas reais, há toda uma série de complicações para as quais você realmente não foi treinado como matemático. É muito mais difícil do que eu pensava, para alguém que vem da matemática ou das ciências da computação, desenvolver uma compreensão de como os dados são coletados no laboratório, para aprender como pensar os problemas biológicos que de fato importam, e dar espaço às imperfeições do mundo real. Não é fácil. Como se vê, há pontes culturais que devem ser atravessadas de ambos os lados.
A especificidade e a abstração da linguagem da matemática e das ciências da computação não trazem riscos, quando aplicadas à Biologia?
É difícil levar em conta todas as complexidades. Nós, da matemática e das ciências da computação, costumamos simplificar os problemas, tentando extrair aqueles que parecem ser os elementos-chaves, e com eles construir algorítmos e procedimentos para calcular. Quando se trata de organismos biólogicos, lidamos com sistemas extremamente complexos. Mesmo os biólogos têm que super-simplificar, têm que escolher um aspecto particular do organismo e pensar sobre ele numa forma simplificada, por causa da extrema complexidade.
São bilhões de partículas interagindo entre si – a simplificação é necessária. O risco que o ponto de vista da matemática traz é a tentação de olhar para o organismo, para algum aspecto da seqüência, e tentar pensar sobre isso de uma maneira particular, que esteja relacionada com um problema matemático particular que já se conheça. Isto é muito perigoso porque não estamos estudando objetos; na Biologia, são realmente sistemas complexos, que têm muitos aspectos que nós não suspeitamos; é preciso, portanto, manter-se de mente aberta para eles.
O senhor pensa que, a partir desses esforços, vai ser possível responder à questão: o que é a vida?
Sim, acho que, em determinado momento, vamos ser capazes de entender o que são os organismos. Penso que, de fato, os organismos obedecem às leis da física e da química. Quando entendermos o que eles são nos termos dessas leis, chegaremos a entender, então, os sistemas complexos de moléculas. Como eles se organizam, quais seus componentes, que interações se dão – sempre haverá algum mistério nisto. Talvez a complexidade seja grande demais para ser entendida. Organismos vivos são sistemas complexos de moléculas, interagindo entre si, e que têm a possibilidade de fazer coisas surpreendentes, coisas maravilhosas. É preciso ser capaz de compreender os organismos nestes termos.
Mas esses não são uma abordagem e um ponto de vista reducionistas?
Esta é uma critica pertinente, e minha resposta é sim. Quando se trata de tentar entender qualquer sistema complexo, não é apenas uma questão de identificar o que são as partes. Há questões de mais alto nível, quando se deseja detalhar a operação do sistema. Certamente, interagimos com o meio ambiente. O ambiente é feito de moléculas, ele próprio um sistema complexo, nós somos um componente do complexo meio ambiente. Mas, ainda assim, continuamos a obedecer às leis da física e da química. Há um reducionismo extremo que pode ser criticado – a visão de que, para entender a natureza, basta saber quais são suas partes.
Para entender qualquer aspecto da natureza, é necessário entender quais as interações que ocorrem – interações governadas pelas leis da química e da física. O problema principal é o entendimento dos sistemas complexos. Nós podemos determinar quais são os componentes moleculares de um sistema, mas é muito mais difícil entender como esses componentes interagem com o sistema de moléculas. Apesar das dificuldades, acredito que seremos capazes de fazê-lo no futuro.
Como o senhor se sente como o criador das ferramentas mais largamente usadas nos projetos genoma?
Um pouco ambivalente. Quando comecei a me debruçar sobre esses assuntos, cinco ou seis anos atrás, eu realmente pensava que seria simples. Ingenuidade minha. Também não via esse assunto como alguma coisa em que eu quisesse trabalhar a longo prazo, porque os problemas me pareciam técnicos: há pouca ou nenhuma biologia envolvida no desenvolvimento de novas ferramentas, por exemplo. Meu propósito ao escolher esse campo era o de gerar conhecimento biológico novo; estou muito mais interessado no problema da interpretação das seqüências.
Quer dizer: uma vez que tenhamos uma seqüência, tentar identificar nela detalhes biológicos importantes. Assim, ficar centrado no que tem relação com a montagem e com a determinação das bases me afasta, na verdade, desse meu interesse. Nosso software tem sido bem sucedido; há muitos grupos que dependem de nós para aperfeiçoá-los. Só vamos considerá-lo inteiramente bom quando estivermos num estágio em que não tenhamos mais que melhorá-lo em nada, porque ele vai lidar com todos os problemas automaticamente. Então, gosto de ver nossos softwares em uso, mas é um pouco frustrante que isso me tire do caminho onde estão os problemas mais interessantes.
De que se trata, interpretar seqüências?
Interpretar seqüências envolve problemas de mais longo prazo, e mais interessantes. É importante identificar genes, saber dizer onde começam, onde terminam, e identificar os diferentes sinais que estão associados com eles. Há muita gente trabalhando nisto. Mas, presumivelmente, há outro tipo de informação na seqüência, além dos genes. Esta é uma área interessante – identificar esses outros detalhes biológicos na seqüência – e pouco progresso tem sido feito nela. Para enfrentar a questão, é preciso buscar idéias da teoria das probabilidades e da estatística. É preciso desenvolver modelos probabilísticos para tentar entender as seqüências. Basicamente, a razão pela qual a teoria das probabilidades é necessária é que a seqüência de um genoma é produto de bilhões de anos de evolução, e a evolução tem um grande componente aleatório.
Muitas das mudanças nas seqüências que ocorreram ao longo do tempo não têm nenhuma implicação funcional, elas são basicamente aleatórias. Então, ao olhar a seqüência genômica de dois organismos diferentes, e tentar entender em que são similares e porque são diferentes, deve-se levar em conta essas diferenças aleatórias. Daí a necessidade da teoria das probabilidades. Então, o que tem sido feito é desenvolver modelos probabilísticos que prevejam como deve ser cada tipo particular de seqüência. Um exemplo: a parte do gene que codifica a proteína tem certas tendências estatísticas que advêm simplesmente do fato de codificar a proteína. Além disso, há fatos estatísticos bastante interessantes, que são apenas parcialmente entendidos.
Não sei se não estou ficando muito técnico… O código genético que converte triplas de DNA em aminoácidos é degenerado – há vários codons diferentes para um dado aminoácido. O caso é que eles não são usados com igual freqüência em um dado organismo. Qualquer que seja o organismo que você estuda, se você toma um aminoácido particular que é codificado por mais de um codon, e conta quão freqüentemente cada um desses codons é usado, você encontrará que eles não são usados com a mesma freqüência. Às vezes, há um grande viés nisso.
É útil tentar criar modelos estatísticos para classificar determinada seqüência codificadora com o propósito de identificar genes e seqüências. Quando você conhece esses vieses, “viés de uso de codons sinônimos”, é assim, que são chamados, então você pode elaborar um modelo estatístico e levá-lo em conta. É realmente muito interessante descobrir, do ponto de vista biológico, porque esses vieses ocorrem. Até agora, isto é entendido apenas parcialmente. Parece que alguns desses codons, em organismos primitivos, são traduzidos mais eficientemente que outros.
Como a seqüência protéica é construída a partir do RNA mensageiro, alguns dos codons se reorganizam mais rapidamente e codificam seu aminoácido com mais rapidez e precisão. Parece, então, ter havido alguma seleção durante a evolução para favorecer certos codons. Mas há outros aspectos que não entendemos. Quando se começa a fazer análise estatística de seqüências genômicas, é excitante notar que você começa a notar padrões, aspectos não-aleatórios da seqüência. Então, a questão é: o que isto significa do ponto de vista biológico? Há muitas observações já feitas que não compreendemos. Novos experimentos devem ser tentados para esclarecer o assunto.
O senhor publicou um paper em que afirma seu ceticismo em relaçao à estratégia proposto pela Celera e por Craig Venter para sequenciar o genoma humano. O senhor poderia nos falar disso?
A questão central são as repetições, as seqüências repetidas do genoma humano. Na estratégia em uso atualmente, os grupos tomam clones de 150 mil pares de bases, quebram esses clones em pedaços, seqüenciam, e depois montam. Pois mesmo nessa escala, com clones desse tamanho, os grupos encontram problemas com as seqüências repetidas. Na maior parte das vezes, os programas de montagem conseguem lidar com osrepeats ; mas há casos realmente difíceis, especialmente quando você tem repetições relativamente longas, que ocorrem em vários lugares com seqüências quase idênticas. Isso quando você vê o problema em pequena escala, na escala desses clones de 150 mil pares de bases. Quando você aumenta a escala, o problema simplesmente cresce de magnitude.
Quanto maior o pedaço de DNA, maior a probabilidade de você ter repetições nele. Portanto, eu sou cético: não é factível realizar a montagem na escala do genoma humano inteiro. Por outro lado, acho que a Celera na verdade não vai fazer a montagem de todo o genoma a partir dos seus próprios dados. Eles não precisam fazer isto, porque o projeto público está gerando dados que não são finalizados imediatamente, o que quer dizer que os dados parciais ficam disponíveis. O que a Celera fará, acho, é combinar os dados que eles vão obter com oshot-gun com os dados do projeto público. Isto vai permitir que a Celera localize as seqüências dentro do genoma e tornará o problema de montagem muito mais fácil. Ainda assim, é um grande desafio. Apesar de estarmos sempre tentando aperfeiçoar os softwares, mesmo assim, há regiões que são extremamente difíceis, há muitas seqüências repetidas e elas são muito similares umas às outras. Não haverá como realizar a finalização de forma completamente automática.
Mas o senhor não está cético em relação ao cronograma do projeto Genoma Humano…
Também acho um desafio. O que me preocupa é que os prazos pressionam as pessoas a baixar o padrão de qualidade das seqüências. Acho que haverá pressão para que se gere menor quantidade de dados, um número menor dereads em cada região, para permitir que se avance mais rapidamente. Se isto acontecer, não haverá dados suficientes para obter a seqüência toda corretamente. Talvez se conseguirmos automatizar a fase de finalização, possamos ajudar. Mas, com menos dados, é provável que haja regiões em que a seqüência não será precisa, pois a pressão vai desestimular as pessoas a buscar em mais dados.
Então, o que me preocupa é que o produto, a seqüência final que vai emergir daqui a cinco anos, ou daqui a dois, no projeto da Celera, poderá conter muitos erros. Haverá regiões montadas de maneira errada; haverá outras regiões em que a montagem estará certa, mas com trechos errados na seqüência, o que pode comprometer o trabalho dos biólogos. Não é realista pensar que vamos obter seqüências perfeitas. O objetivo com o qual concordamos no Genoma Humano é de admitir um erro a cada 10 mil pares de bases. Quando os biólogos ouvem esse número, eles sentem que é excessivo. Para mim, não soa excessivo, porque o comprimento de uma região codificadora dentro de um gene é talvez mil ou mil e quinhentos pares de bases, o que garante que apenas uma minoria dos genes contenha erros em sua seqüência.
Queremos que pelo menos as regiões codificadoras tenham alto grau de precisão, porque haverá um grande número de estudos biológicos das proteínas criadas por elas, e será necessário também comparar as seqüências codificadoras de proteínas entre diversos organismos, para analisar aspectos relacionados à evolução. Então, a precisão é necessária, quase sempre. Se viermos a admitir um erro a cada mil pares de bases, isto significa que praticamente todo gene terá pelo menos um erro. Uma parcela importante deles vai resultar em conclusões erradas a respeito do aminoácido codificado, o que é muito sério. Assim, um erro em 10 mil bases é razoável. Seria possível aumentar a precisão, mas, então, o custo se tornaria talvez alto demais.
Republicar