Olhar eletrônico : Revista Pesquisa Fapesp

Parece mágica, mas a cena pode se tornar corriqueira dentro de alguns anos. Em um aeroporto qualquer do planeta, um deficiente visual aponta seu smartphone para o painel de voos e, imediatamente, o dispositivo narra a relação de partidas e chegadas apresentada no display. A cena se repete em estações ferroviárias e pontos de ônibus dotados de mostruários com os horários das linhas e em ambientes corporativos – nesse caso, indivíduos cegos poderão saber quais são os produtos que estão expostos em máquinas de venda automática de alimentos, como refrigerantes, sucos, batatas e salgadinhos diversos. Isso será possível com uma tecnologia gestada no IBM Research Brasil, o laboratório de pesquisa da multinacional norte-americana de informática localizado em São Paulo. Batizado de Reconhecimento de Conteúdo Dinâmico Assistido por Marcadores, o aplicativo tem recursos de visão computacional, inteligência artificial e de processamento de imagens para fazer o reconhecimento de textos e objetos em ambientes públicos.

“A novidade em relação a aplicativos similares de reconhecimento de imagem é o uso de marcadores”, diz Andréa Mattos, a jovem cientista da IBM que liderou a criação do aplicativo. Os marcadores, um conjunto de quatro adesivos com diferentes imagens gráficas, são posicionados nos cantos superiores e inferiores do objeto-alvo. “Eles são pontos de referência e facilitam que os objetos da cena sejam detectados e identificados pelo aplicativo”, diz Andréa, de 28 anos.

Num aeroporto, por exemplo, um indivíduo cego só precisaria pedir ajuda para localizar o painel de voos delimitado pelos marcadores. Depois, apontando seu smartphone ou tablet para ele, poderia checar se seu avião está ou não no horário. Caso tivesse dificuldade para fazer o perfeito enquadramento do painel – condição necessária para o programa funcionar e as informações visuais serem lidas e transformadas em avisos sonoros –, escutaria instruções como “desloque a câmera para a direita” ou “levante um pouco a câmera”. “Cada marcador tem uma posição precisa em relação aos demais. A orientação para correção do enquadramento é possível desde que pelo menos um dos quatro marcadores tenha sido captado pela câmera do smartphone”, explica Andréa.

Infográfico: Ana Paula Campos / Ilustração: Samuel RodriguesPara que o aplicativo funcione também é necessário que os objetos ou textos a serem reconhecidos sejam exibidos em um layout com posições fixas. As mensagens no painel passam por alterações constantes da mesma forma que os produtos nas máquinas de venda automática. O indispensável é que as posições onde são mostrados os produtos ou as informações sejam imutáveis. Depois, ele automaticamente busca em sua memória pelo template daquela cena, espécie de máscara com posições fixas no lugar em que estão posicionados os textos ou as imagens a serem reconhecidas. Numa máquina de venda automática, o template nada mais é do que um diagrama mostrando os nichos onde os produtos ficam enfileirados; num painel de voos, o template mostra o espaço, dentro do display, em que as informações são exibidas.

Por fim, o programa parte para a identificação e a leitura do conteúdo. No caso das máquinas, isso se dá por um método comparativo. O aplicativo tem guardado em sua memória um banco de imagens com a fotografia de todos os produtos vendidos por ela – lata do refrigerante X, saco de batata frita Y, pacote de biscoito Z etc. Ele compara os produtos captados pela câmera do usuário com as fotos armazenadas e verbaliza a oferta de mercadorias. Numa placa ou painel com informações escritas, o programa reconhece as letras e os números, e faz a leitura do que encontrou para o usuário.

A pesquisadora realizou uma bateria de testes com máquinas de venda automática para provar a viabilidade da técnica. Para conferir a eficiência do aplicativo, foram feitas 60 fotografias, totalizando 240 marcadores, já que cada máquina possui quatro marcadores. O índice de detecção foi de 99,16%. O reconhecimento dos produtos dentro das máquinas foi de 89,85%, o que, segundo Andréa, é uma taxa elevada, considerando os desafios do problema.

Cegos ou com visão reduzida
Uma das vantagens da inovação, cujo desenvolvimento também contou com a participação dos pesquisadores Carlos Cardonha, Diego Gallo, Priscilla Avegliano, Ricardo Herrmann e Sérgio Borger, todos da IBM, é conferir mais autonomia a pessoas cegas ou com visão reduzida. O trabalho foi premiado na 11ª Conferência Web for All, que reconhece os melhores projetos mundiais voltados à acessibilidade e internet, realizada em abril deste ano na Coreia do Sul. A tecnologia foi submetida ao United States Patent and Trademark Office (Uspto), o escritório norte-americano de patentes. Esta foi uma das 19 patentes solicitadas pela IBM Brasil ao Uspto somente nos seis primeiros meses deste ano.

Essa não é a primeira nem a única tecnologia de visão computacional para reconhecimento de imagens existente no mundo. O uso de códigos de barras é uma técnica promissora. Afixados em produtos, eles podem ser lidos pelo escâner instalado em um smartphone. Mas são limitados quando o conteúdo é dinâmico – como é o caso de painéis de voos, onde as informações sempre mudam.

“Vários grupos no mundo tentam criar dispositivos capazes de reconhecer objetos, mas não encontramos na literatura que envolve visão computacional nenhuma tecnologia como a nossa, capaz de reconhecer produtos em ambientes não controlados, ou seja, sujeitos à variação de iluminação e a interferências visuais diversas”, afirma Sérgio Borger, gerente de pesquisas da área de Sistemas de Engajamento da IBM. “Vamos fazer novos ensaios para avaliarmos questões ligadas à usabilidade da nossa aplicação”, diz Borger.

Republicar