Imprimir Republish

Software

La voz de la computadora

Lingüistas e ingenieros de la Unicamp elaboran un sistema de habla con estilo brasileño

Si bien muchas máquinas hoy en día “hablan” lo suficientemente bien como para realizar algunas tareas sencillas, y muchas personas desde hace algunos años “conversan” con sistemas automatizados de atención telefónica y cajeros automáticos bancarios, los recursos de voz sintética de uso comercial todavía presentan dificultades para reproducir el habla humana con naturalidad. Y su vocabulario es muy limitado. Pero hay indicios de que muy pronto las computadoras perderán el “acento digital” y ampliarán su universo lingüístico. Grandes compañías están comenzando a obtener resultados más naturales y más agradables a los oídos. Esta búsqueda por la perfección sonora de las computadoras empezó hace tiempo en la Universidad Estadual de Campinas (Unicamp).

Un proyecto conjunto, iniciado en 1991 y llevado adelante entre las áreas de lingüística e ingeniería eléctrica, produjo un software que actualmente es capaz de leer en voz alta cualquier texto escrito en portugués, sin el acento inglés característico de los sistemas producidos fuera del país. Este programa brasileño lleva el nombre de Aiuruetê, que en lengua tupí significa “loro hablador”.Desde el principio el desarrollo del sistema estuvo supeditado a finalidades científicas, pero el proyecto también produjo resultados tecnológicos.

“Queríamos crear un sistema de síntesis del habla en portugués brasileño, partiendo de la investigación básica y volcado a ésta”, recuerda la profesora Eleonora Cavalcante Albano, del Laboratorio de Fonética y Psicolingüística del Instituto de Estudios del Lenguaje (Lafape/ IEL), coordinadora del trabajo. Al mantener la meta inicial, y con una visión amplia de la descripción fonético-acústica de la lengua, la iniciativa incluía estudios de problemas de desarrollo y trastornos articulatorios, teoría fonológica y fonoestilística y análisis y síntesis del habla.

Evolución rápida
En 1992, el profesor Fábio Violaro, coordinador del Laboratorio de Procesamiento Digital del Habla de la Facultad de Ingeniería Eléctrica (LPDF/ Feec) y su grupo de investigadores hicieron suyo el proyecto del Lafape. “Nosotros ya estábamos trabajando con síntesis del habla, pero los resultados de nuestros esfuerzos eran limitados, precisamente debido a la falta de conocimientos lingüísticos”, dice Violaro. En esa época las microcomputadoras estaban evolucionando rápidamente, y sus recursos de procesamiento y memoria permitían ya el desarrollo de programas de síntesis de voz. Hoy en día el Aiuruetê puede ejecutarse en cualquier computadora, con el sistema operativo Windows.

Los programas de síntesis del habla, que pueden contribuir bastante en la enseñanza a distancia y en la educación de discapacitados visuales, más allá de una serie de aplicaciones comerciales, en general se basan en la conversión texto-habla. Al igual que sus similares extranjeros, el Aiuruetê trabaja con informaciones textuales, que en la fase de previa de procesamiento son sometidas a un análisis que incluye sus características gramaticales (siglas, abreviaturas y símbolos gráficos), que son reescritas por extenso de la manera tal como se las lee. Luego adquieren una transcripción fonética.

Entonces el software busca en su banco de datos las emisiones compatibles con el material transcrito y da cuenta de la concatenación de los elementos fónicos que componen las palabras, suministrándoles también la información sobre la entonación y el ritmo del portugués brasileño. ¿Parece fácil, no es verdad? Pues bien, no lo es. Tanto es así que, desde el comienzo de la llamada era digital, la síntesis del habla desafía a investigadores de todo el mundo, que han obtenido un nivel de éxito apenas razonable.Varios factores se unen en la complejidad de este proceso, en cualquier idioma.

En primer lugar surge la cuestión de que los sistemas escritos de diferentes idiomas poseen también variados grados de foneticidad -es decir, solamente hasta cierto punto la grafía de las palabras determina su pronunciación. El inglés, por ejemplo, tiene una ortografía muy poco fonética. Palabras que se escriben de diferente manera, como rite (rito),write (escribir),right (correcto) y wright (artesano) son pronunciadas exactamente de la misma manera, y por tanto, tienen la misma transcripción fonética: rait. La ortografía del portugués tiene una foneticidad mediana, pero no por eso ofrece menos dificultades. Para tomar solamente un ejemplo, basta recordar que la letra “x” puede sonar como “sh”, “s”, “ks” o “bz”.

“El portugués es más o menos tranquilo, pero el español es mucho mejor”, bromea Eleonora. Al abordar esta cuestión, un neófito puede imaginar que la construcción de una base de datos con todas las palabras del idioma es la solución. Pero un emprendimiento de esa naturaleza, al margen de ser monumental, estaría condenado al fracaso: el lenguaje es dinámico, y nuevas palabras surgen todos los días. A su vez, la pronunciación de un mismo vocablo varía según el contexto, lo que implicaría la necesidad de grabar la misma palabra varias veces -sencillamente no habría diccionario de ese tamaño. Aun las palabras de uso difundido pueden no estar diccionarizadas, así como las conjugaciones verbales y las formas diminutivas y superlativas. El software necesita principalmente parámetros que rijan la pronunciación de la máquina.

“Optamos por limitarnos a alrededor de 2.500 fragmentos de grabaciones”, comenta Eleonora. El número no es alto, pero los tramos fueron sometidos a una rigurosa selección. En ésta los investigadores no trabajaron con un concepto tradicional de la lingüística, que define al fonema como la menor unidad mental correspondiente al sonido. El equipo, desde el inicio del trabajo, sustenta una postura teórica según la cual el fonema es una abstracción influida por la escritura alfabética. Uno de los puntos del estudio fueron los diversos fonemas, que sufren influencia de aquéllos que los preceden y de los subsiguientes.

“Muchos factores se combinan en la articulación de los sonidos, y una ‘p’ seguida de una ‘a’ es pronunciada de diferente manera que una ‘p’ seguida de una ‘i’ o de una ‘u'”, observa Eleonora.Otro problema en el desarrollo de un sistema de habla son las diferencias entre las representaciones gráficas del texto y la manera como éstas se expresan en el habla. Las abreviaturas, por ejemplo, pueden leerse de diferente manera, aun cuando tengan el mismo número de caracteres y sean igualmente “pronunciables”. En tal sentido, se puede comparar UTI con IEL o ITA, por ejemplo. La lectura de números telefónicos es diferente de una expresión numérica -nadie leería 32220000 como 32 millones, 220 mil. Las medidas de longitud se escriben de la misma manera en singular y en plural: 1 metro y 100 m. Todo esto exige algoritmos complejos.

Emoción y sutilezas

“Aunque el Aiuruetê ya puede utilizarse en una serie de aplicaciones, se encuentra aún en fase de desarrollo”, afirma Violaro. Entre las mejoras figura la asimilación de las sutilezas de los ritmos de la forma de hablar brasileña. “En el futuro pretendemos que el Aiuruetê exprese incluso las diferencias tónicas de la emoción”, dice Eleonora. Según Violaro, el programa comienza a suscitar el interés de algunas empresas especializadas en tecnología de la información. Una de éstas pretende emplear el Aiuruetê en un sistema de autoatención para consultorios médicos, para agendar consultas y otras funciones. Asimismo, el trabajo también resultará en la construcción de una base pública de conocimientos de los aspectos fónicos del portugués hablado en Brasil. Así, el software estará más cerca de una de las características más apreciadas de los loros habladores: la de ser el más parlanchín de la familia de los psitacídeos.

El proyecto
Procesamiento de Textos y Señales Acústicas en Portugués Brasileño: Una Interfaz Lingüística – Ingeniería para la Ciencia y la Tecnología del Habla (nº 93/00565-2); Modalidad Proyecto temático; Coordinadora Eleonora Cavalcante Albano – Instituto de Estudios del Lenguaje de la Unicamp; Inversión R$ 9.528,00 y US$ 58.672,00

Republicar