Imprimir Republish

Computación

Reconocimiento de ambiente

Un sistema desarrollado con tecnología de videojuegos transforma imágenes en sonidos para simplificar el cotidiano de deficientes visuales

Un sensor con cámaras y equipos...

EDUARDO CESARUn sensor con cámaras y equipos…EDUARDO CESAR

Con base en una tecnología disponible en el mercado, el sensor Xbox Kinect, lanzado por Microsoft para videojuegos, científicos de la Universidad de Campinas (Unicamp) desarrollaron un sistema, aún en etapa experimental, que convierte videos en información sonora para ayudar a discapacitados visuales en sus tareas cotidianas. La tecnología Kinect posee dos cámaras, una de ellas con un sistema que emite y captura luz infrarroja, reconocido por un algoritmo que confiere un valor de profundidad –o distancia de la cámara– por cada punto de la imagen. Con base en estos datos es posible detectar objetos y usuarios en el ambiente sin confundirse con sus contornos y variaciones de luces y colores. En el proyecto llevado adelante en la Unicamp en colaboración con el investigador Dinei Florêncio, de Microsoft, se montó un prototipo que cuyo soporte es un casco de skater. Sobre el casco se ubicó un sensor Kinect con ambas cámaras –los elementos restantes que forman parte del aparatos original se quitaron– conectadas a una laptop con gran poder de procesamiento de información, aparte de un giroscopio, un acelerómetro y una brújula, dispositivos que registran conjuntamente alteraciones en la dirección de la cabeza.

El usuario lleva la laptop  dentro de una mochila. “Los datos del ambiente captados a través de la cámara se procesan en la computadora, que le devuelve la información al usuario en audio”, dice Siome Klein Goldenstein, docente del Instituto de Computación de la Unicamp y coordinador del proyecto, financiado por la FAPESP y Microsoft en el marco del Programa de Investigación en Colaboración para la Innovación Tecnológica (Pite). El usuario cuenta también con audífonos provistos de tecnología bone conduction: el audio se transmite a los oídos por la conducción del sonido a través de los huesos del cráneo. Esto permite que los oídos queden libres para escuchar otras fuentes sonoras del ambiente y no sólo los feedbacks de audio que suministra el sistema, cosa que sucedería si se utilizasen headphones comunes.

...que registran cambios en la dirección de la cabeza del usuario forma parte del prototipo de la Unicamp

EDUARDO CESAR…que registran cambios en la dirección de la cabeza del usuario forma parte del prototipo de la UnicampEDUARDO CESAR

Siome explica que durante el proyecto se estudiaron varios escenarios de uso para la tecnología. Una de las aplicaciones que ya están listas es un módulo de detección y reconocimiento de personas en un ambiente cerrado. Para que el sistema efectúe el reconocimiento, primero es necesario crear un registro de personas. “Utilizamos una técnica de localización facial y empleamos un algoritmo para la clasificación de cada una de las personas del registro”, explica Laurindo de Sousa Britto Neto, doctorando del Instituto de Computación de la Unicamp y participante en el proyecto. Cuando el usuario entra en un recinto con personas registradas previamente, el módulo de detección y reconocimiento facial transmite la información al módulo de audio 3D, configurado para reproducir un sonido en la localización espacial de cada uno de los presentes en la sala. “Al escuchar el nombre de cada una de las personas, el usuario sabrá la posición exacta donde la misma se encuentra”, explica Siome. “Es como si el sonido saliera de la cabeza de la persona identificada por el módulo de detección”. El objetivo es hacer que el discapacitado pueda girar su rostro en la dirección correcta y comunicarse de la forma más natural posible.

La técnica de audio 3D fue un capítulo aparte en el desarrollo del proyecto, pues cada oído reacciona de forma distinta a los estímulos del mundo externo, según Siome. La investigación con audio 3D estuvo a cargo de Felipe Grijalva Arévalo, ecuatoriano que llegó a Brasil en 2012 para hacer su maestría bajo la dirección del profesor Luiz César Martini, de la Facultad de Ingeniería Eléctrica y Computación de la Unicamp, discapacitado visual que trabaja con investigaciones orientadas a ese público. Como cada cabeza tiene una anatomía distinta, es necesario recurrir a un proceso denominado personalización para generar audio 3D. “El abordaje más sencillo consiste en utilizar medidas ya conocidas de anatomía de la oreja y, con base en éstas, trazar un modelo de personalización”, informa Felipe. El investigador estudió el tema durante la elaboración de su tesina de maestría, codirigido por Siome, y actualmente sigue trabajando con audio 3D en su tesis doctoral. Las pruebas se hicieron inicialmente con personas vendadas; en la próxima etapa, tras la aprobación del comité de ética de la Unicamp, se llevarán a cabo con discapacitados visuales. Tras la realización de todos los experimentos necesarios para la validación del nuevo sistema, podrá compartírselo con toda la comunidad.

Un abordaje simplificado
Otra aplicación que se encuentra en etapa de finalización es un sistema de ayuda a la navegación capaz de informarle al usuario dónde hay obstáculos en su camino. “El Kinect posicionado en la cabeza del discapacitado captará los cuadros del video que serán segmentados mediante algoritmos en diversos planos, tales como piso, puerta y escalera”, explica Laurindo Neto. La información se le transfiere entonces en audio al usuario. El proyecto contó con la participación de Vanessa Maike bajo la dirección de Maria Cecilia Baranauskas, del Instituto de Computación (IC), quien trabajó en experimentos en el área de interfaces naturales que comprenden formas naturales de interacción entre personas y ordenadores, y de Anderson Rocha, también del IC, en la parte de biometría.

La idea de transformar imágenes en sonidos para discapacitados visuales no es nueva, pero las tecnologías utilizadas por el grupo de investigación de la Unicamp resultaron en un abordaje de reconocimiento más sencillo para el usuario, con reproducción del ambiente natural. El dispositivo más conocido en el mercado con ese concepto es el The vOICe, creado por Peter Meijer, del Laboratorio de Investigaciones Philips, en Holanda. Este sistema consiste en una cámara común acoplada a gafas –también puede utilizarse la del smartphone–, que captan las imágenes del ambiente, convertidas en imágenes por un ordenador y transmitidas mediante audífonos. En este caso, la cámara capta las escenas de izquierda a derecha, y el usuario recibe la información a través del oído izquierdo y del derecho alternadamente.

Proyectos
1. Vista para ciegos: traducción de conceptos visuales 3D en información de 3D de audio (nº 2012/50468-6); Modalidad Investigación en Asociación para la Innovación Tecnológica (Pite); Investigador responsable Siome Klein Goldenstein (Unicamp); Inversión R$ 32.648,40 (FAPESP) y R$ 32.648,40 (Microsoft).
2. Aprendizaje de máquina en procesamiento de señales aplicado al audio espacial (nº 2014/14630-9); Modalidad Beca de Doctorado; Investigador responsable Luiz César Martini (Unicamp); Becario Felipe Leonel Grijalva Arévalo (Unicamp); InversiónR$ 136.000,80.

Republicar