Imprimir Republicar

Computación

Atención virtual

Un sistema de animación facial puede volver más intuitiva la interacción con las computadoras

art4478img1 JOSÉ DE MARTINO / UNICAMPEn poco tiempo más, una extracción de dinero, un pago o cualquier movimiento bancario realizado en una máquina de atención electrónica podrá transformarse en una experiencia distinta de la actual. En lugar de digitar mandos e interactuar fríamente con la pantalla del cajero automático, el usuario tendrá una vivencia de atención parecida a la que realiza un empleado de carne y hueso de una sucursal bancaria. La persona será “atendida” por la imagen de un bancario virtual, cuyo rostro surgirá en la pantalla de la máquina y lo instruirá verbalmente acerca de qué debe hacer. Este empleado virtual podrá estar presente en los celulares, verbalizando mensajes que actualmente se envían por escrito, o en websites, ayudando a los usuarios a hacer reservas de pasajes aéreos, concertando consultas médicas y otros diversos servicios realizados actualmente por medio de menús, una tarea aparentemente trivial para muchos, pero que aún causa dolores de cabeza a personas no familiarizadas con esas tecnologías o con discapacidad de lectura y limitaciones físicas, por ejemplo.

Éste es el escenario proyectado por un dúo de investigadores de la Universidad Estadual de Campinas (Unicamp) responsable del desarrollo de un método de animación facial videorrealista, elaborado con base en imágenes del rostro humano – no dibujadas con ayuda de la computación gráfica –, que crea y reproduce en caras virtuales los detalles y los matices que se observan en rostros reales. El objetivo de esta innovación, que recibió el nombre de AnimaFace2D, es convertir a la interacción con la computadora y otros dispositivos electrónicos en una parecida a la que se establece durante una conversación cara a cara. “El sistema que creamos podrá soportar el desarrollo de interfaces humano-ordenador más intuitivas, eficientes y cautivantes, lo que representa una alternativa a los aplicativos más tradicionales, que se apoyan en el uso de ventanas, íconos, menús, teclado y mouse“, dice el ingeniero electricista José Mario De Martino, corresponsable de la investigación y docente de la Facultad de Ingeniería Eléctrica y de Computación de la Unicamp. “La conversación con un rostro humano es un proceso eficiente e intuitivo. Creo que las personas virtuales constituyen una alternativa prometedora para la creación de interfaces de comunicación en diferentes tipos de dispositivos y aplicaciones.”

El resultado final del proceso de animación facial creado en la Unicamp es un conjunto de imágenes fotográficas de una cara real que, al ser procesadas y presentadas en secuencia y a un ritmo apropiado, transmiten la sensación de movimiento, como si fuese una persona hablando en vivo. Para generar una imagen hablante videorrealista, la tecnología recurre a una base de 34 fotografías de distintas posturas labiales, los llamados visemas. Cada uno de éstos puede asociarse a un conjunto de fonemas de nuestro idioma. Por ende, cada visema es la representación visual de la posición articulatoria de la boca para la producción acústica de los fonemas. La identificación de los visemas fue producto de una investigación que involucró el análisis del movimiento articulatorio durante la producción de los fonemas del portugués hablado en Brasil realizada por De Martino.

Fotografías sincronizadas
La ingeniera electricista Paula Dornhofer Costa, alumna de doctorado bajo supervisión del profesor De Martino, empleó la definición de los visemas para identificar el conjunto de 34 fotografías del rostro de una persona real utilizadas para la síntesis de la animación. Esas 34 imágenes hacen posible la sincronización entre los movimientos labiales del rostro virtual y el habla, generando así una animación cercana a la de un interlocutor que habla en vivo. Trazando un paralelo con el universo de los doblajes de películas, la correcta identificación y la perfecta secuencia de los visemas evitan la falta de sincronía entre el habla y la articulación labial. De acuerdo con el profesor de la Unicamp, el software desarrollado es inédito en Brasil. Los sistemas similares que existen en el exterior, todavía no comerciales, se destinan a otros idiomas.

“Todo el estudio relacionado con el desarrollo de la tecnología se hizo en Brasil y se centró en nuestra realidad, sobre todo en nuestra lengua y sus particularidades”, afirma De Martino. “No contamos con la colaboración de investigadores extranjeros. La única e importante colaboración que tuvimos fue a la fundación CPqD, de Campinas, que contribuyó con la beca de maestría, apoyó la implementación del sistema piloto y permitió el uso del sintetizador de texto – CPqD Texto Fala – [CPqD Texto Habla]”. El software empleado en este sistema piloto fue registrado en el Instituto Nacional de Propiedad Industrial (INPI) y está listo para su uso comercial. “Tenemos un fuerte interés en establecer asociaciones con empresas interesadas en explotar la tecnología”, dice.

“Esta tecnología será presentada a expertos del mercado en agosto de este año, y creemos que le interesará a las empresas que trabajan con la interfaz hombre-máquina, tales como las de automación bancaria, e-commerce y turismo, entre otras”, dice Giancarlo Stefanuto, coordinador científico del proyecto intitulado Movilización Empresarial para la Innovación (Mepi) de Inova, la Agencia de Innovación de la Unicamp, que administra los derechos de propiedad intelectual y la búsqueda de interesados en licenciar o crear una empresa para comercializar ese software. “Nos dimos cuenta de que existe un mercado en expansión para software de animación de expresiones faciales, como el desarrollado en la Unicamp. La interfaz hombre-máquina se está volviendo cada vez más personalizada, e innovaciones como ésta tienden a tener una buena demanda en el futuro. Para nosotros, ésta es una línea de investigación estratégica, pero, para que la tecnología salga al mercado, aún se hacen necesarios algunos ajustes y adaptaciones. Debe ser más amigable, tener interfaces más intuitivas y requiere de un tutorial y un manual”, dice Stefanuto. “La expansión del mercado es producto de la percepción de los expertos de Inova, comprobada por el propio investigador en foros internacionales en donde la tecnología es debatida.”

Los sistemas de animación facial podrán tener en el futuro diversos tipos de aplicaciones, entre ellos la creación de avatares, personajes o actores virtuales en juegos o videos comerciales, la elaboración de agentes personificados virtuales, tales como vendedores, tutores, empleados de soporte, guías virtuales y presentadores de noticias, entre otros. Podrán usarse también como herramientas de estudio y capacitación de lectura labial. La tecnología tiene características que hacen posible su adaptación a diversas plataformas de procesamiento, tales como teléfonos celulares, smartphones y tablets. “Es posible imaginar una aplicación en la que los usuarios de celulares suscribirían un servicio de noticias a cargo de un presentador sintetizado en los propios aparatos, por ejemplo. Las ventajas tienen que ver con que las noticias podrían enviarse en formato de texto a los celulares, y el sistema se encargaría de hacer la conversión automática del texto en habla visual. Además de abaratar el servicio – el envío de caracteres tiene un costo menor que el de imágenes –, no sería necesario gravar el video de un presentador de noticias todos los días o por cada boletín”, explica De Martino.

Republicar