O risco da confiança excessiva nas máquinas : Revista Pesquisa Fapesp

No Programa Genoma Fapesp, quem fala em bioinformática, fala nos dois “Joões”, jovens livre-docentes do Instituto de Computação da Unicamp, e fundadores do laboratório que é um talismã da rede de seqüenciamento ONSA (do inglês, Organization for Nucleotide Sequencing and Analysis). João Carlos Setúbal é um dos dois “Joões”; e deve ao outro, João Meidanis, o encontro com a biologia computacional. Ex-paulistano (deixou a cidade em que nasceu há mais de 10 anos), João Carlos, 42 anos, também é um ex-engenheiro mecânico que, ao escolher se doutorar nas ciências da computação, achou um caminho que o levou de volta ao interesse, presente desde a adolescência, pelo estudo dos organismos. Doutor Setúbal entregou-se com prazer a essa discussão sobre o impacto de sua especialidade no fazer científico contemporâneo; e usou, ao expor suas idéias, a precisão que é uma sua marca registrada. Sua reflexão complementa e enriquece ospontos de vista de Phil Green, expostos na entrevista anterior. Casado com “a linda Teca” – as aspas são do marido -, João é pai de Caio, Claudia e Tomás.

A ligação das metodologias em uso no seqüenciamento de genomas com a informática é muito grande. Gostaria que o senhor precisasse que contribuição as ciências da computação aportam à Biologia.
Vou tentar sistematizar. A primeira coisa é o volume de dados. O volume de dados que está sendo gerado mundo afora pelos laboratórios de biologia molecular é inimaginavelmente grande. Também é inimaginável tratar esses dados sem o auxílio dos computadores. Nos tempos heróicos da biologia molecular, o número de seqüências era tão pequeno que Russell Doolittle podia pedir ao filho para ajudá-lo a datilografar as seqüências para ordená-las na parede. Hoje, isso é impossível. A quantidade de seqüências geradas no mundo é tão grande, que só com computadores você é capaz de lidar com ela. A segunda coisa é a capacidade de análise desse volume. Os computadores desempenham o papel fundamental de realizar tarefas de forma automática sobre esse grande volume de dados.

De novo, podemos fazer uma analogia com a época pioneira: desde os primórdios, foi necessário pegar pedaços do DNA e juntá-los para formar seqüências maiores. Isto era feito no olho: as pessoas escreviam as seqüências e começavam a tentar ajustar umas com as outras e montavam – era um processo manual, que foi completamente automatizado. Quase completamente: ainda é necessária a supervisão humana; você tem que ver se a montagem está boa. Mas, em grande medida, o processo foi automatizado. No projeto da Xylella , por exemplo: quem poderia ser capaz de olhar todos esses dois milhões de bases e confirmar se elas estariam corretamente montadas? A grande virtude do computador, desde que os programas sejam bons, é a capacidade de tomar conta muito bem, e velozmente, da parte mecânica, repetitiva. Aliás, isso acontece com qualquer máquina. O computador filtra, permite que a gente se concentre naquilo em que somos necessários.

De que maneira a informática mudou o jeito pelo qual os biólogos aproximam-se de seu objeto de estudo?
Não sou a pessoa mais indicada para dar essa resposta, porque eu nunca tive uma prática de biologia que eu possa comparar com a prática atual. Mas posso generalizar a partir de experiências de outras áreas. O mais óbvio a falar, nesse caso, é que a pessoa passa a confiar mais nos resultados da máquina que na sua própria intuição, em sua própria experiência. Há um exemplo disto acontecendo agora na Xylella : surgiu a necessidade de fazermos uma certificação das montagens feitas pelos laboratórios. Quem faz a montagem é um programa, que às vezes não chega a uma conclusão, mas, sim, mostra uma ambigüidade. Para darmos conta do volume de trabalho, essa certificação precisou ser automatizada. Estabelecemos alguns critérios, e foi possível criar um programa que automatizou a verificação desses critérios.

Claro, o programa obedece a certas regras: o cosmídeo não pode apresentar posições não confirmadas em dupla fita, não pode ter discrepâncias de alta qualidade e assim por diante. O programa simplesmente verifica isso e devolve para você uma lista, que diz: este cosmídeo não está pronto, porque tem tais posições com problemas. O que acontece normalmente é que a vasta maioria das posições problemáticas é resolvida através de novas experiências. Mas, algumas vezes, os responsáveis pelos laboratórios nos procuram e dizem: “olha aqui, apesar de o seu programa estar dizendo que há um problema, na verdade não há nenhum problema”. Aí, olhamos juntos o cromatograma, vemos que de fato não há problema, e tudo se resolve. Só que, outras vezes, as coisas não são tão simples assim, nem tão objetivas…

Quer dizer: as ferramentas deixam pouco espaço para a subjetividade do pesquisador…
Exatamente. E isso representa uma perda. Diferentes pessoas, olhando o mesmo cromatograma, podem chegar a conclusões diferentes… Quando eu vejo uma dúvida desse tipo, gostaria de ter o traquejo de conhecer os cromatogramas e falar para o pesquisador: “você tem razão, isso de fato comprova que o que o programa diz que é um problema não é de fato um problema”. Mas eu não tenho esse traquejo. Imagino que biólogos também não tenham esse traquejo, porque está todo mundo confiando demais nessas ferramentas automatizadas, o que é inevitável: em qualquer domínio da informática, sempre vai haver essa dualidade. Por outro lado, é fundamental dizer também o seguinte: a informática está permitindo aos biólogos formular perguntas antes jamais imaginadas, e essas perguntas e suas respostas estão sendo uma das principais alavancas do atual progresso da biologia molecular.

O exemplo mais simples é o seguinte: um biólogo seqüencia um novo gene, mas não tem idéia de sua função. Aí, ele compara (por meio de um programa de computador) a seqüência do gene com as seqüências de outros genes armazenadas num banco de seqüências (isto é, armazenadas em computadores). Supondo que haja uma seqüência muito parecida depositada no banco, e que essa seqüência corresponda a um gene bem estudado, o pesquisador terá, em questão de segundos, uma pista muito boa para a função do gene que ele seqüenciou. Antes dessa revolução ocorrer, o pesquisador poderia passaranos para conseguir essa pista. Esse exemplo é útil também para mostrar um dos principais desafios da biologia molecular atual: o de formular perguntas “certas”. Com tantos dados acumulados, não tenho dúvidas de que existem muitas coisas a serem descobertas, desde que as perguntas certas sejam feitas. E a informática fornece as ferramentas para que essas perguntas possam ser respondidas.

O senhor acha que a linguagem da informática impôs-se à Biologia, que ela conforma a Biologia às regras, modelos, métodos da computaçao?
É que antes das abstrações da informática, vêm as abstrações que estão na cabeça dos biólogos. A informática só concretiza os modelos e as abstrações que os próprios biólogos julgam apropriados. Então, a pergunta deveria ser formulada primeiro em termos desses modelos dos biólogos. Por exemplo: a pesquisa atual em cima dos projetos genoma centra-se muito no conceito de gene. Naturalmente, vem a pergunta: o que é um gene? Se você pegar um livro-texto qualquer, vai ver: um gene é um pedaço de DNA que é constituído de uma parte central que codifica uma proteína; também tem um promotor, que permite o reconhecimento por parte da enzima que vai fazer a cópia daquele pedaço etc e tal. Mas quanto mais se conhece o DNA e o genoma, percebe-se que esse conceito talvez seja ultrapassado. O conceito de conjuntos de genes está ficando cada vez mais importante… Então, o conceito de gene é um exemplo de modelo abstrato que os biólogos têm e que condiciona a forma pela qual eles fazem a pesquisa.

A informática traduz as abstrações, os conceitos. Existem programas que acham genes. É claro que esses programas embutem as regrinhas que os biólogos acham importantes para localizar genes. Se o conceito de gene mudar, é obvio que o programa também vai ter que mudar. Acho que sua pergunta pode ser vista da seguinte forma: será que, após a colocação dos modelos e das abstrações dos biólogos, de sua concretização através da informática, será que a própria informática não introduz algumas coisas que são próprias dela, e que acabam direcionando de alguma forma os resultados? Minha resposta é: sem sombra de dúvida.

Mas, é difícil para eu diferenciar até onde vai o modelo dos biólogos, as abstrações deles, e onde começam a aparecer coisas que são inerentes à informática. Posso dizer que, para nós da informática, é muito fácil tratar o DNA como uma cadeia de caracteres. As cadeias de caracteres são objeto da informática. O risco é fazer abstrações sempre num determinado sentido. Existe uma tendência muito forte a encarar o DNA como uma seqüência de letras.

E isto não induz a equívocos?
O equívoco principal é se esquecer que o DNA é uma molécula de dupla fita. Me lembro de ter estado em conferências e ouvido os biólogos dizerem: “vocês, não-biólogos, ficam procurando padrões no DNA; de repente, descobrem que a molécula apresenta um padrão de determinado jeito, super interessante, e anunciam aquilo como uma grande descoberta, e quando você vai ver, o padrão que parecia tão interessante é mera conseqüência do fato de o DNA ter duas fitas enroladas em hélice, cada vez que ele dá uma volta, vai aparecer tal coisa”. Quer dizer, não tinha nada de revolucionário, era óbvio que tinha de ser assim, visto que o DNA é uma molécula tridimensional enrolada. O fato de o DNA ser um código discreto de quatro letras casa-se maravilhosamente bem com os modelos, as idéias e os conceitos fundamentais da ciência da computação.

A tendência, então, é descrever o genoma e os mecanismos de geração de proteínas como se fossem programas de computador, e esta é uma tendência que tem que ser brecada. Existe uma distância bárbara entre uma coisa e outra. É uma comparação útil num primeiro instante, para o pessoal de computação entender a biologia, como funciona a replicação, esses conceitos. Mas essa metáfora tem um limite muito claro. A falta da consciência desse limite pode levar a trabalhos que acabam indo para o lado errado, porque estão entendendo o DNA de um jeito que ele não deve ser entendido. O lado mais errado para onde se pode ir é pensar que um organismo é determinado pelo seu DNA, da mesma forma que um computador é determinado pelos seus programas ou um disco é determinado pelas músicas que estão nele gravadas.

Pelo fato de simplificar demais?
– Exatamente.

Há uma concepção dominante entre pesquisadores que vou resumir na frase: “o destino de cada um é seu DNA”. O senhor concorda com isto?
A ciência deveria ser uma maneira de adquirir conhecimento que, a certa altura, vai nos mostrar a vida como ela é – vida aí no sentido biológico. Então, eu não sei, você não sabe, ninguém sabe hoje o quanto de nosso patrimônio genético determina aquilo que somos. Existem correntes ideológicas – algumas acham que somos vastamente determinados pelo nosso patrimônio genético; outras, acham que não…

O senhor acha que é ideólogico?
Acho que tem muito de ideologia, neste momento. A pesquisa nesta área vai contribuir para lançar um pouco mais de luz sobre isso e, por conseguinte, tornar um pouco menos ideólogico esse debate.

O ponto de vista hegemônico entre os cientistas envolvidos nessas áreas de pesquisa é o ponto de vista de que somos “vastamente” determinados pelos genes…
É verdade. Mas aí vem a ciência. Sabemos que a ciência é uma atividade humana determinada pelos valores de uma época, pela ideologia de uma época e assim por diante. Mas há um valor intrínseco na ciência: de alguma forma, com o passar dos anos, quando existe uma verdade natural, ela acaba emergindo, de um jeito ou de outro. A verdade pode ficar escondida durante um certo tempo, por causa da ideologia, por causa dos valores da época etc; mas tudo indica que a ciência, da forma que vem sendo exercida desde o século 17, acaba sendo imune a esse tipo de coisa. Pode levar um certo tempo mas a ciência acaba vencendo, por assim dizer.

Assim, se houver uma verdade biológica de que nós somos determinados largamente pelo nosso patrimônio genético, então não vai haver como escapar disto. Ou o contrário: se, apesar de o establishment científico atual ser dominado por pessoas que acham que somos determinados pelo nosso patrimônio genético, a verdade for oposta a isso, num primeiro momento, talvez as conclusões levem a confirmar a ideologia do establishment cientifico; mas, mais cedo ou mais tarde, isso vai acabar caindo por terra. Se não cair, há algo de profundamente errado com a ciência, certo? E o consenso geral é que, por mais defeitos que a ciência tenha, ela acaba descobrindo as verdades.

Republicar