Imprimir PDF

Matemática

Programados para ver

Animais mostram aos computadores como identificar objetos

O que se pode aprender com animais tão distintos quanto uma salamandra, um gato ou uma aranha? Cientistas da Universidade de São Paulo em São Carlos estão aprendendo a ver. O estudo de modelos biológicos tem sido indispensável para desvendar os segredos de uma das mais complexas atribuições do cérebro – a visão -, que depois se pretende ensinar a um computador. Há avanços tanto na teoria quanto na prática. Podemos ainda estar longe de Hal, o sagaz computador de 2001, Uma Odisséia no Espaço ou mesmo dos andróides quase humanos de Blade Runner, mas o Grupo de Pesquisa em Visão Cibernética já exibe neurônios virtuais, que criam vida própria dentro do ambiente virtual e podem ser controlados, de acordo com as regras inferidas da pesquisa com células reais. É o caminho para se fazer o inverso: entender, a partir do modelo matemático, como os neurônios naturais interagem entre si – uma tarefa quase impossível pelos meios habituais, pois os neurônios em laboratório só podem ser estudados isoladamente.

O conhecimento acumulado pela equipe tem servido para o desenvolvimento de projetos aplicados. Já permitiu a construção de um olho mecânico, concluído no ano passado, com base no sistema visual de uma aranha. Na medicina, subsidia o desenvolvimento de um sistema de diagnóstico de leucemia, que deve ser concluído em quatro anos.O coordenador do grupo, Luciano da Fontoura Costa, engenheiro eletrônico com especialização em Física, tem prestado consultoria para indústrias nacionais e estrangeiras. Dois exemplos: para a Hewlett Packard do Brasil, criou um sistema de controle de qualidade de monitores de vídeo, e para a Intelligent Network, dos Estados Unidos, um programa de reconhecimento de padrões e inteligência artificial em redes de computadores e Internet.

Laranjas e maçãs
As aplicações práticas da visão computacional, nos mais diversos setores, são imensas e atraem o interesse de empresas e universidades em todo o mundo. Estima-se que, no exterior, essa área movimente cerca de US$ 5 bilhões, mesmo que os mecanismos de visão computacional ainda sofram limitações. Máquinas de inspeção visual já podem, por exemplo, reconhecer bolachas quebradas entre bolachas inteiras, mas aindatêm dificuldades em distinguir objetos de contornos semelhantes, como laranjas de maçãs ou rostos masculinos de femininos. Conscientes da estratégica importância dessa área de pesquisa, o grupo sediado em São Carlos consolidou-se como um dos mais profícuos do Brasil, com base na multidisciplinaridade. Fazem parte da equipe especialistas em Computação, Matemática, Física, Engenharia Eletrônica e Mecânica. Há também neurocientistas, médicos, psicólogos e até filósofos. A maioria deles já completou o doutorado, de modo que pode parecer estranho que uma aranha ou uma salamandra ensine a um grupo de qualificados Homo sapiens algo sobre uma capacidade inata e aparentemente tão simples quanto a visão. Afinal, ver parece exigir menos esforço do que fazer cálculos ou tomar decisões, por exemplo.

Não é bem assim. “Há uma tendência a considerar a visão como um processo simples e a imagem que vemos como uma impressão direta do mundo ao nosso redor”, diz Costa, que coordenou o recém-encerrado projeto Pesquisa em Visão Cibernética, financiado pela FAPESP. “Na realidade, a visão é um processo refinado, que requer cerca de metade da capacidade do córtex cerebral de um primata e consiste na passagem da imagem física para a interpretação.” Trata-se de um conjunto de processos capaz de identificar e localizar os objetos existentes no mundo a partir da informação visual captada por sensores – uma habilidade que nem as máquinas mais sofisticadas ainda conseguiram conquistar, enfim.

Forma e função
Costa tem certeza de que encontrará na natureza as soluções para o desafio de ensinar uma máquina a ver. “Se comparássemos o sistema nervoso a uma máquina”, diz ele, “o programa da visão estaria todo codificado nos neurônios.” Assim, o primeiro passo da pesquisa consiste no conhecimento e na classificação das células nervosas. “Antes de criar um bom modelo matemático-computacional, é preciso conhecer a anatomia e fisiologia dessas células e desvendar a relação entre suas formas e funções”, comenta. O cérebro humano tem centenas de tipos de neurônios e tudo indica que essas diferenças sejam determinadas por interações internas e externas ao indivíduo, uma vez que nosso material genético não é suficiente para justificar um número tão vasto de formas.

A teoria não é original. No fim do século 19, o médico espanhol Santiago Ramón y Cajal (1852-1934), pioneiro no estudo de tecidos neurais, atribuía a própria inteligência humana à forma dos neurônios. Cajal ganhou, com o italiano Camillo Golgi (1843-1926), o Prêmio Nobel de Medicina e Fisiologia de 1906 e passaria à história como criador da neurociência moderna, mas seu interesse pela forma neuronal não receberia maior atenção no decorrer do século 20. No Brasil, a chamada neuromorfometria continuaria como um campo de pesquisa praticamente inédito até que o Grupo de Visão Cibernética iniciasse seus estudos de como a forma pode influenciar no comportamento dos neurônios. “A definição da forma de um neurônio pode estar diretamente ligada ao estabelecimento de conexões sinápticas. Células mais complexas, com maiores arborizações dendríticas, conectam-se a um número maior de células. Um dos nossos objetivos é obter parâmetros que possam classificá-las”, diz Costa.

O estudo concentrou-se em dois tipos de neurônios, as células ganglionares e as piramidais, o primeiro da retina de gato e da salamandra e o outro de rato. Como o laboratório do grupo no Instituto de Física de São Carlos não trabalha com animais, as imagens de neurônios reais foram enviadas por parceiros da pesquisa, como o Departamento de Fisiologia da Universidade de Minnesota, nos Estados Unidos, e a Universidade Federal do Rio de Janeiro (UFRJ). A partir das imagens reais, analisadas por métodos estatísticos e de computação gráfica, é que os pesquisadores construíram os sistemas neuronais virtuais. Com eles, podem conhecer melhor o funcionamento dos neurônios, fundamentais à visão, e simular situações reais. É a chamada visão cibernética, a expressão que os pesquisadores adotam por essa área representar a interface entre a visão biológica e a computacional.

Simulações
Mas o que se quer realmente é gerar neurônios realistas, estatisticamente semelhantes aos naturais. Para chegar lá, o primeiro – e talvez mais difícil – desafio é estabelecer padrões de classificação. O que faz um neurônio da célula ganglionar da retina do gato distinguir-se de qualquer outro? Foi preciso escolher um conjunto de medidas que representassem cada grupo de neurônios, como tamanho, largura, orientação e ângulos dos segmentos dos dendritos, as ramificações desse tipo de célula. Segundo Costa, a escolha desses parâmetros ainda é um problema aberto, que deve levar em conta o que se quer estudar.

A questão da extração de medidas, ponto-chave da criação do sistema nervoso virtual, também é fundamental para o desenvolvimento de um mecanismo visual cibernético. A partir de uma cena qualquer, o computador terá de captar a imagem que lhe interessa – como faz o olho biológico – e dela extrair os atributos (ou medidas) necessários para seu reconhecimento. O segredo é saber que medidas são essas capazes de transformar a imagem em eficientes algoritmos (modelos ou expressões matemáticos) de identificação. No meio de um grupo de pessoas, por exemplo, o que torna homens e mulheres estatisticamente diferentes entre si? Altura, comprimento de cabelo, ângulos das feições? O que ao animal parece instintivo, o computador terá de aprender passo a passo.

O olho da aranha
Desenvolver um sistema de reconhecimento mais eficiente foi o objetivo de um dos primeiros trabalhos práticos realizados pelo Grupo de Pesquisa em Visão Cibernética, a construção de um olho mecânico. O trabalho começou em 1993, quando Costa voltou do doutorado no King’s College, de Londres, e terminou no ano passado. O modelo utilizado foi o sistema visual de várias espécies de aranha saltadora, da família Salticidae, escolhida por ter a visão bastante evoluída. Segundo Costa, essa espécie possui o sistema visual mais desenvolvido entre os invertebrados terrestres e, incluindo os aquáticos, só perde para o polvo. Além disso, consegue detectar segmentos de reta, uma habilidade ideal para o desenvolvimento de um olho mecânico, por facilitar o armazenamento das informações.

Olhar seletivo
O trabalho começou com a observação do comportamento da aranha. Presa diante de uma tela de computador, ela assistia a imagens de hipotéticas presas e predadores e os pesquisadores observavam suas reações. Costa agora reconhece que esse tipo de abordagem tinha uma falha: a observação humana é subjetiva, ou seja, diferentes observadores podem chegar a diferentes conclusões. Por isso, logo o trabalho se sofisticou, com a inclusão de um estetoscópio eletrônico. Colocado sobre o abdome da aranha, o aparelho mediu os micromovimentos abdominais – onde fica o coração desse animal – e obteve uma medição mais objetiva da resposta aos estímulos. Os pesquisadores observaram que a aranha saltadora era capaz de reconhecer, rapidamente, se a imagem projetada na tela era de outra aranha ou não.

A retina da aranha saltadora, com a forma alongada como a de um bumerangue e a capacidade de se mexer, enquanto a córnea permanece fixa (ao contrário do olho humano), serviu de modelo para a criação de um protótipo de olho mecânico que detectasse retas com grande eficiência para reconhecer objetos de imediato. Essa abordagem levou também à interpretação do reconhecimento de retas como sendo um problema de otimização matemática.

Outra aplicação prática da pesquisa de visão cibernética envolveu aplicações experimentais nas estações ferroviárias de Londres, num trabalho em colaboração com o King’s College. Trata-se de um sistema de estimativa de densidade populacional, para monitorar áreas onde se agrupam multidões. Como numa multidão aparecem apenas pedaços de corpos, o computador não chega a reconhecer seres humanos individualmente. A técnica é baseada em diferenças de padrões de textura. Imagens de baixa densidade de pessoas tendem a apresentar textura grossa, enquanto imagens mais densas apresentam texturas mais finas. Desse modo, as imagens são classificadas em diferentes categorias de texturas. Depois, empregam-se estatísticas dessas classes para estimar o número de pessoas.

Computador também escolhe
Ainda mais surpreendente é o programa que avalia a percepção visual, um atributo ainda pouco conhecido dos cientistas e bastante influenciado pelo ambiente, contexto sociocultural e emoções. “A imagem da TV é enviada aos aparelhos com perda de qualidade”, exemplifica Costa. “Se nossa percepção fosse linear, bastaria medir a imagem original, tirar a diferença e estabelecer padrões de qualidade.” Mas a imagem pode ter distorções e ainda assim ser agradável. Um modelo adequado para avaliar a qualidade das imagens teria de ser capaz de considerar as sutilezas do sistema visual humano.

Foi exatamente isso o que o computador fez. No ano passado, os pesquisadores convidaram um grupo de 20 pessoas de diferentes segmentos sociais a atribuir notas a cerca de 50 imagens. A partir das notas, associadas a medidas como dimensões, contraste e cor, os especialistas elaboraram um algoritmo que permitisse ao computador avaliar outras imagens. Em seguida, compararam os dois julgamentos. Humanos e máquinas valorizaram pontos como qualidade artística e originalidade, atributos diretamente relacionados com o contexto cultural. A maior surpresa: as notas dadas pelos humanos e em seguida pelo modelo computacional mostraram-se bastante parecidas.

Respostas rápidas
Como as imagens ficavam na tela por poucos segundos, uma justificativa possível para a incrível concordância é que tenham sido avaliadas medidas mais primitivas. No ser humano, a informação visual passa primeiro pela base do lobo occipital, região do córtex cerebral localizada próximo à nuca e responsável pelo reconhecimento de segmentos de reta, que faz o processamento primário da informação visual. Se a imagem ficasse na tela por mais tempo, a informação caminharia para regiões cerebrais mais influenciadas pelas emoções e contextos culturais, o que poderia causar distorções em relação à avaliação do computador. Segundo Costa, esse detalhe não inviabiliza uma possível aplicação do experimento, sobretudopara a avaliação de conteúdos visuais que devem provocar impactoou agradabilidade imediata, como outdoors, páginas de Internet ou mesmo anúncios publicitários de televisão. “Um dos benefícios dessa pesquisa é a identificação da importância específica dos diversos atributos visuais no processo de percepção”, diz ele.

Atualmente, o grupo de São Carlos trabalha num programa de diagnóstico semi-automático de leucemia, em colaboração com os hematologistas Marco Zago, da Faculdade de Medicina da USP de Ribeirão Preto, e Sérgio Martins, do Hemocentro também de Ribeirão. O objetivo é criar um software de apoio ao médico para o reconhecimento de células anormais, distintas por alterações de formato. “Primeiro, o computador precisa separar os tipos de célula do sangue, reconhecer os leucócitos e só então fazer as medições”, diz Costa. Hoje, o diagnóstico é feito de forma visual – e um tanto subjetiva.

Facilidades
Costa acredita que o diagnóstico ficará não apenas mais rápido, mas também mais preciso e objetivo. “Certos tipos de leucemia associam-se a alterações morfológicas bastante típicas, como anormalidades na forma do núcleo e citoplasma da célula”, comenta. Por esse motivo, parece possível relacionar rapidamente a forma da célula com o tipo de doença e, cruzando o resultado com os dados clínicos, tomar decisões ainda mais precisas na forma de tratamento. Recentemente, o grupo de São Carlos integrou-se ao Projeto Genoma Humano do Câncer. Uma de suas tarefas, já definidas, é aplicar técnicas de processamento de sinais e imagens, reconhecimento de padrões, inteligência artificial e mineração de dados na análise das informações obtidas nesse projeto financiado em conjunto pela FAPESP e pelo Instituto Ludwig.

Parte dessa trajetória de oito anos está reunida no recém-lançado Shape Analysis and Classification: Theory and Practice, escrito por Costa em parceria com Roberto Marcondes César Jr., do Instituto de Matemática e Estatística da USP de São Paulo, a convite da editora norte-americana CRC Press. Olhando para a frente, a dupla de pesquisadores pretende agora avançar em pesquisas de visão cibernética com aplicações em análise de imagens de microscopia, inspeção visual e reconhecimento de faces, a partir do projeto temático recém-assinado, a ser desenvolvido nos próximos três anos.

Os projetos
1. Pesquisa em Visão Cibernética; Modalidade Programa de Apoio a Jovem Pesquisador; Investimento R$ 81.300,00 mais US$ 5.000,00
2. Desenvolvimento e Avaliação de Métodos Originais e Precisos em Análise de Formas e Imagens e Visão Computacional (nº 99/12765-2); Modalidade Projeto temático; Coordenador Luciano da Fontoura Costa -Instituto de Física de São Carlos da Universidade de São Paulo; Investimento R$ 325.000,00 mais US$ 130.000,00