Computadores de olhos abertos : Revista Pesquisa Fapesp

Por enquanto, computadores dificilmente seriam cineastas sequer razoáveis. Seria desse modo mostrado nas imagens abaixo – sem qualquer sensibilidade, por meio de cruzinhas que indicam os pontos mais importantes de um rosto (os olhos, o nariz e a boca) – que um Pentium de capacidade média reconheceria o personagem Tião Paineira, que faz peças de barro e aparece no documentário Confidências do Rio das Mortes, de 1998, dirigido por Paschoal Samora e produzido pela Grifa Cinematográfica. Com 52 minutos, o filme conta a história da frente de colonização do ouro nos séculos XVII e XVIII na comarca de Rio das Mortes, sudeste de Minas Gerais, por meio de relatos de descendentes dos pioneiros. Nem de longe o computador teria condições de interpretar as sutilezas do filme, embora o reconhecimento de imagens esteja avançando.

Um grupo de jovens pesquisadores da Universidade de São Paulo (USP) está empenhado na tarefa de elaborar programas de computação que permitam a identificação e o reconhecimento de pessoas. O desafio é romper a limitação do estado da arte nessa área, que é a dependência de ambientes estáticos e bem-comportados. Pode parecer que a quebra dessa barreira depende do avanço da tecnologia de instrumentos óptico-eletrônicos. Mas não. A maior dificuldade está mais para o lado do arsenal matemático, mais precisamente para a ciência da computação, na área de desenvolvimento de algoritmos.

“Nosso objetivo é desenvolver dispositivos que funcionem em tempo real, para que o computador reconheça quem está na sua frente”, diz Roberto Marcondes Cesar Junior, professor do Departamento de Ciência da Computação do Instituto de Matemática e Estatística (IME) da USP. “Esse seria um grande avanço na interação homem-máquina.” Aos 31 anos, há 11 estudando visão computacional, Cesar Junior trabalha no projeto Análise Multi-Escala de Imagens, iniciado em 1998 com um financiamento de R$ 12,5 mil da FAPESP. À frente do Grupo de Pesquisa Criativa em Visão, conta com a colaboração de sete alunos, dois deles trabalhando em uma área próxima, a análise de neurônios.

Aplicações
A visão computacional tem como objetivo o desenvolvimento de tecnologias de identificação e reconhecimento de imagens. Algumas aplicações já fazem parte do dia-a-dia, como a tomografia computadorizada. Não é difícil imaginar outras. Programas de reconhecimento de pessoas poderão permitir, por exemplo, o acesso a dados de conta corrente a um usuário localizado em frente a um terminal em uma agência bancária ou diante de um computador conectado à rede de um banco.

Talvez essa seja uma alternativa mais amigável que o reconhecimento da imagem da retina, empregada experimentalmente em agências bancárias no Reino Unido. A informação contida na retina é muito mais complexa do que a de uma impressão digital e dos traços fisionômicos de um rosto. Segundo Cesar Junior, o desenvolvimento desse tipo de programas poderá também tornar mais eficiente a identificação de criminosos a partir de retratos falados ou de crianças desaparecidas que estejam circulando em locais como estações rodoviárias, de trem ou metrô.

Os programas de reconhecimento de pessoas têm uma elevada taxa de acerto quando não há variação dos fatores ambientais. “Basta uma pequena variação na iluminação do ambiente e a taxa de acerto cai radicalmente”, observa Cesar Junior. Segundo ele, existem instrumentos óptico eletrônicos adequados para trabalhar com imagens em movimento ou com grande variação do ambiente. E os computadores atuais são capazes de realizar o processamento dos dados necessários para o reconhecimento de imagens faciais. A preocupação é outra: ainda não há como processar a massa de informações fornecida por uma imagem digital.

“Temos de criar algoritmos mais robustos”, diz o pesquisador. Algoritmos são seqüências de operações ordenadas aplicáveis na resolução de problemas específicos. Traduzidas em uma linguagem de programação, as operações de um algoritmo passam a ser as instruções a serem executadas por um computador. Essa robustez algorítmica significa maior complexidade, na medida em que se busca trabalhar com as variáveis das condições do contorno do rosto humano em uma imagem digital ou em uma seqüência de vídeo de imagens digitais. O ponto de partida para o reconhecimento de imagens é a análise de formas bidimensionais. No caso das imagens de rostos humanos, esse procedimento passa a exigir a abordagem tridimensional, para a qual já existem ferramentas computacionais.

Pontos privilegiados
Dada uma imagem em que aparece um rosto, é preciso que o programa identifique o conjunto de pontos que corresponde à face. O programa a ser desenvolvido teria uma monstruosidade algorítmica se tivesse de processar indiscriminadamente todos os pontos de uma imagem digital, envolvendo análises de forma, de cor e de textura. O processamento de todos esses dados de imagens implicaria sua conversão em dados numéricos de uma matriz de dimensão gigantesca. “É preciso fazer um trabalho de mineração dos dados a serem processados”, diz o pesquisador.

Os mecanismos pesquisados por Cesar Junior trabalham com pontos privilegiados. A inspiração veio da psicologia. De acordo com testes psicológicos, não são todos os pontos de uma imagem que têm relevância no processo de reconhecimento de um rosto. Existe uma atenção seletiva, que se concentra em pontos específicos, como os que correspondem às extremidades laterais da boca, aos orifícios das narinas e aos olhos.

Paraproduzir computacionalmente a diferenciação dos pontos correspondentes aos contornos dos objetos, os matemáticos e especialistas em computação desenvolveram algoritmos para detectar as bordas em imagens. Uma das primeiras contribuições nesse campo foi dada pelo húngaro Dennis Gabor (1900-1979), ganhador do Prêmio Nobel de Física de 1971 por sua contribuição no campo da holografia. Os chamados filtros de Gabor, utilizados para detectar os elementos correspondentes a uma borda, geram uma imagem mais simples, que ressalta somente as bordas do rosto e dos outros objetos de uma imagem original.

Em seguida, para selecionar as regiões que correspondem ao rosto, é reproduzido computacionalmente o procedimento de fixação dos seis pontos correspondentes aos olhos, narinas e extremidades da boca. Essa função é desempenhada por algoritmos que comparam distâncias entre alguns dos pontos da imagem. Entram em cena as chamadas séries de Fourier, que permitem expressar qualquer função de uma variável em uma soma de senos e co-senos. Apresentada em 1822, no célebre Théorie Analytique de la Chaleur (Teoria Analítica do Calor), a análise desenvolvida pelo matemático francês Joseph Fourier (1768-1830) tornou-se uma ferramenta de amplo uso em problemas algorítmicos com o impulso da computação somente nos anos 60.

O trabalho prossegue na busca da definição de subconjuntos de pontos essenciais para a identificação, assim como no desenvolvimento de mecanismos que permitam traduzir esses pontos em dados numéricos. O grupo da USP já consegue fazer o acompanhamento desses seis pontos em uma seqüência de vídeo. Mas o desafio do algoritmo robusto permanece, assim como o entusiasmo do jovem professor e de seus colaboradores.

Uma ajuda aos Neurocientistas

O Grupo de Pesquisa Criativa em Visão realiza um trabalho inédito no Brasil na área de neuromorfometria, que consiste na análise de imagens de neurônios. O objetivo dessa linha de pesquisa é fornecer ferramentas para ajudar os neurocientistas a compreender melhor o processo de interação dessas células que compõem o cérebro e o sistema nervoso.

“É um caminho de mão dupla: fornecemos para os neurocientistas ferramentas para que eles aprofundem o conhecimento de processos do sistema nervoso, como a visão, e em contrapartida adquirimos conhecimentos importantes para o trabalho em visão computacional e em outras áreas”, afirma Roberto Marcondes Cesar Junior, que trabalha em colaboração com o neurocientista Herbert Jelinek, da School of Community Health, da Charles Sturt University, na Austrália.

Estudos recentes têm demonstrado que o processo de interação das células neuronais pode estar intimamente relacionado à sua forma. Os principais resultados de reconhecimento de neurônios obtidos pelo pesquisador baseiam-se na classificação de células pertencentes a duas classes morfológicas de células ganglionares da retina de gato, as classes alfa e beta. Segundo o pesquisador, essas células têm sido estudadas há décadas e fornecem um excelente exemplo de células neurais em que a relação entre morfologia e função foi identificada.

A curvatura dos filamentos neuronais é hoje vista como uma medida adequada de classificação. Por essa razão, a análise de imagens de neurônios segue o caminho inverso ao da geração de gráficos a partir de dados: é a partir das imagens que são extraídos os valores numéricos a elas correspondentes, que consistem em dados sobre o número de curvaturas e de ramificações.

Perfil
Roberto Marcondes Cesar Junior tem 31 anos e desde 1998 é professor do Departamento de Ciência da Computação do Instituto de Matemática e Estatística da Universidade de São Paulo (USP). Concluiu sua graduação em Computação em 1991 no Instituto de Biociências, Letras e Ciências Exatas da Universidade do Estado de São Paulo (Unesp) em São José do Rio Preto. Terminou o mestrado em 1993 na Faculdade de Engenharia Elétrica da Universidade Estadual de Campinas (Unicamp) e o doutorado em 1997 no Instituto de Física de São Carlos, da USP.

Projeto
Análise Multi-Escala de Imagens
Investimento
R$ 12.500,00

Republicar