Visión electrónica : Revista Pesquisa Fapesp

Léo RamosMuestras de los marcadores adosados a los objetos que se desea reconocerLéo Ramos

Parece algo mágico, pero esta escena podría tornarse común dentro de algunos años. En un aeropuerto cualquiera del planeta, un discapacitado visual apunta su smartphone hacia el panel de información de los vuelos e inmediatamente, el dispositivo relata la relación de partidas y arribos consignada en el display. Ese cuadro se repite en las estaciones ferroviarias y paradas de ómnibus dotadas de letreros electrónicos con los horarios de las líneas y también en ambientes corporativos, donde en este caso, las personas ciegas podrán saber cuáles son los productos que se exponen en máquinas de expendio automático de alimentos, tales como refrescos, jugos, papas y diversos empaques salados. Eso será posible mediante una tecnología gestada en IBM Research Brasil, el laboratorio de investigación de la multinacional estadounidense de informática con sede en São Paulo. Bajo la denominación de Reconocimiento de Contenido Dinámico Asistido por Marcadores, esa aplicación utiliza recursos de visualización computada, inteligencia artificial y de procesamiento de imágenes para realizar el reconocimiento de textos y objetos en ámbitos públicos.

“Lo novedoso en relación con otros aplicativos similares de reconocimiento de imagen es el uso de marcadores”, dice Andréa Mattos, la joven científica de IBM que dirigió el desarrollo de la aplicación. Los marcadores, un conjunto de cuatro adhesivos con diferentes imágenes gráficas, se posicionan en los bordes superiores e inferiores del objeto blanco de esta forma de visualización “Éstos constituyen los puntos de referencia y facilitan la detección e identificación de los objetos en cuestión por el aplicativo”, dice Mattos, de 28 años.

En un aeropuerto, por ejemplo, un individuo ciego sólo necesita solicitar ayuda para localizar el panel de vuelos delimitado por los marcadores. A continuación, apuntando su teléfono inteligente o tablet en esa dirección, podría chequear si su avión está en horario o no. En caso de que se le presentaran dificultades para realizar un encuadre perfecto del panel ‒condición necesaria para que el programa funcione y la información visual sea leída y transformada en avisos sonoros‒ escucharía instrucciones tales como “desplace su cámara hacia la derecha” o “eleve un poco su cámara”. “Cada marcador tiene asignada una ubicación precisa en relación con los demás. La orientación para la corrección del encuadre es factible siempre y cuando al menos uno de los cuatro marcadores haya sido captado por la cámara del smartphone”, explica Mattos.

Infografía: Ana Paula Campos / Ilustración: Samuel RodriguesPara que la aplicación funcione también es necesario que los objetos o textos que serán reconocidos se exhiban en un diseño con posiciones fijas. Los mensajes en el panel sufren alteraciones constantes, del mismo modo que los productos en las expendedoras automáticas. Lo indispensable es que las ubicaciones donde se muestran los productos o la información permanezcan inmutables. Después, el dispositivo busca automáticamente en su memoria el template de esa escena, una especie de máscara con posiciones fijas en el sitio en el que están dispuestos los textos o las imágenes por reconocerse. En una expendedora automática, el template no es más que un diagrama que muestra los nichos donde los productos se encuentran alineados; en un panel de vuelos, el template muestra el espacio, dentro del display, donde se exhiben las informaciones.

Finalmente, el programa inicia la identificación y la lectura del contenido. En el caso de las máquinas expendedoras, esto se realiza por medio de un método comparativo. La aplicación almacena en su memoria un banco de imágenes con la fotografía de todos los productos en venta, por ejemplo, lata de refresco X, paquete de papas fritas Y, paquete de galletas Z, etc. Realiza una comparación de los productos captados por la cámara del usuario con las fotos almacenadas y verbaliza la oferta de productos. En una placa o panel con informaciones impresas, el programa reconoce las letras y los números, y realiza la lectura de lo detectado para el usuario.

La investigadora efectuó una batería de test con máquinas de venta automática para probar la factibilidad de esa técnica. Para comprobar la eficiencia de la aplicación se tomaron 60 fotografías, totalizando 240 marcadores, puesto que cada máquina posee cuatro marcadores. El índice de detección fue del 99,16%. El reconocimiento de los productos dentro de las máquinas fue de un 89,85%, lo cual, según Mattos, es un índice elevado, considerando los desafíos que plantea el problema.

Ciegos o disminuidos visuales
Una de las ventajas de la innovación, cuyo desarrollo también contó con la participación de los investigadores Carlos Cardonha, Diego Gallo, Priscilla Avegliano, Ricardo Herrmann y Sérgio Borger, todos de IBM, consiste en dotar de mayor autonomía a las personas ciegas o con visión reducida. El trabajo fue premiado en la 11ª Conferencia Web for All, que otorga su reconocimiento a los mejores proyectos mundiales volcados a la accesibilidad e internet, llevada a cabo en abril de este año en Corea del Sur. La tecnología fue remitida al United States Patent and Trademark Office (Uspto), la oficina estadounidense de patentes. Esta fue una de las 19 patentes solicitadas por IBM Brasil al Uspto, tan sólo durante los seis primeros meses de este año.

Esta no es la primera ni la única tecnología de visualización por computadora para el reconocimiento de imágenes existente en el mundo. El uso de códigos de barras constituye una técnica prometedora. Impresos en los productos, pueden leerse por medio del escáner instalado en un teléfono inteligente. Pero resultan limitados en cuanto al contenido dinámico, como en el caso de los paneles de vuelo, donde la información cambia permanentemente.

“Varios grupos en el mundo intentan crear dispositivos capaces de reconocer objetos, pero no hemos hallado en la literatura correspondiente a la visión computarizada ninguna tecnología similar a la nuestra, capaz de reconocer productos en ámbitos no controlados, es decir, sujetos a variables de iluminación y a interferencias visuales diversas”, sostiene Sérgio Borger, gerente de investigaciones del área de Sistemas de Contratación de IBM. “Realizaremos nuevos ensayos para evaluar las cuestiones relacionadas con las posibilidades de uso de nuestra aplicación”, dice Borger.

Republicar

Republish