{"id":76603,"date":"2003-05-01T00:00:00","date_gmt":"2003-05-01T00:00:00","guid":{"rendered":"http:\/\/revistapesquisa.fapesp.br\/2003\/05\/01\/la-voz-de-la-computadora\/"},"modified":"2016-04-06T16:28:39","modified_gmt":"2016-04-06T19:28:39","slug":"la-voz-de-la-computadora","status":"publish","type":"post","link":"https:\/\/revistapesquisa.fapesp.br\/es\/la-voz-de-la-computadora\/","title":{"rendered":"La voz de la computadora"},"content":{"rendered":"<p>Si bien muchas m\u00e1quinas hoy en d\u00eda &#8220;hablan&#8221; lo suficientemente bien como para realizar algunas tareas sencillas, y muchas personas desde hace algunos a\u00f1os &#8220;conversan&#8221; con sistemas automatizados de atenci\u00f3n telef\u00f3nica y cajeros autom\u00e1ticos bancarios, los recursos de voz sint\u00e9tica de uso comercial todav\u00eda presentan dificultades para reproducir el habla humana con naturalidad. Y su vocabulario es muy limitado. Pero hay indicios de que muy pronto las computadoras perder\u00e1n el &#8220;acento digital&#8221; y ampliar\u00e1n su universo ling\u00fc\u00edstico. Grandes compa\u00f1\u00edas est\u00e1n comenzando a obtener resultados m\u00e1s naturales y m\u00e1s agradables a los o\u00eddos. Esta b\u00fasqueda por la perfecci\u00f3n sonora de las computadoras empez\u00f3 hace tiempo en la Universidad Estadual de Campinas (Unicamp).<\/p>\n<p>Un proyecto conjunto, iniciado en 1991 y llevado adelante entre las \u00e1reas de ling\u00fc\u00edstica e ingenier\u00eda el\u00e9ctrica, produjo un software que actualmente es capaz de leer en voz alta cualquier texto escrito en portugu\u00e9s, sin el acento ingl\u00e9s caracter\u00edstico de los sistemas producidos fuera del pa\u00eds. Este programa brasile\u00f1o lleva el nombre de Aiuruet\u00ea, que en lengua tup\u00ed significa &#8220;loro hablador&#8221;.Desde el principio el desarrollo del sistema estuvo supeditado a finalidades cient\u00edficas, pero el proyecto tambi\u00e9n produjo resultados tecnol\u00f3gicos.<\/p>\n<p>&#8220;Quer\u00edamos crear un sistema de s\u00edntesis del habla en portugu\u00e9s brasile\u00f1o, partiendo de la investigaci\u00f3n b\u00e1sica y volcado a \u00e9sta&#8221;, recuerda la profesora Eleonora Cavalcante Albano, del Laboratorio de Fon\u00e9tica y Psicoling\u00fc\u00edstica del Instituto de Estudios del Lenguaje (Lafape\/ IEL), coordinadora del trabajo. Al mantener la meta inicial, y con una visi\u00f3n amplia de la descripci\u00f3n fon\u00e9tico-ac\u00fastica de la lengua, la iniciativa inclu\u00eda estudios de problemas de desarrollo y trastornos articulatorios, teor\u00eda fonol\u00f3gica y fonoestil\u00edstica y an\u00e1lisis y s\u00edntesis del habla.<\/p>\n<p><strong>Evoluci\u00f3n r\u00e1pida<br \/>\n<\/strong>En 1992, el profesor F\u00e1bio Violaro, coordinador del Laboratorio de Procesamiento Digital del Habla de la Facultad de Ingenier\u00eda El\u00e9ctrica (LPDF\/ Feec) y su grupo de investigadores hicieron suyo el proyecto del Lafape. &#8220;Nosotros ya est\u00e1bamos trabajando con s\u00edntesis del habla, pero los resultados de nuestros esfuerzos eran limitados, precisamente debido a la falta de conocimientos ling\u00fc\u00edsticos&#8221;, dice Violaro. En esa \u00e9poca las microcomputadoras estaban evolucionando r\u00e1pidamente, y sus recursos de procesamiento y memoria permit\u00edan ya el desarrollo de programas de s\u00edntesis de voz. Hoy en d\u00eda el Aiuruet\u00ea puede ejecutarse en cualquier computadora, con el sistema operativo Windows.<\/p>\n<p>Los programas de s\u00edntesis del habla, que pueden contribuir bastante en la ense\u00f1anza a distancia y en la educaci\u00f3n de discapacitados visuales, m\u00e1s all\u00e1 de una serie de aplicaciones comerciales, en general se basan en la conversi\u00f3n texto-habla. Al igual que sus similares extranjeros, el Aiuruet\u00ea trabaja con informaciones textuales, que en la fase de previa de procesamiento son sometidas a un an\u00e1lisis que incluye sus caracter\u00edsticas gramaticales (siglas, abreviaturas y s\u00edmbolos gr\u00e1ficos), que son reescritas por extenso de la manera tal como se las lee. Luego adquieren una transcripci\u00f3n fon\u00e9tica.<\/p>\n<p>Entonces el software busca en su banco de datos las emisiones compatibles con el material transcrito y da cuenta de la concatenaci\u00f3n de los elementos f\u00f3nicos que componen las palabras, suministr\u00e1ndoles tambi\u00e9n la informaci\u00f3n sobre la entonaci\u00f3n y el ritmo del portugu\u00e9s brasile\u00f1o. \u00bfParece f\u00e1cil, no es verdad? Pues bien, no lo es. Tanto es as\u00ed que, desde el comienzo de la llamada era digital, la s\u00edntesis del habla desaf\u00eda a investigadores de todo el mundo, que han obtenido un nivel de \u00e9xito apenas razonable.Varios factores se unen en la complejidad de este proceso, en cualquier idioma.<\/p>\n<p>En primer lugar surge la cuesti\u00f3n de que los sistemas escritos de diferentes idiomas poseen tambi\u00e9n variados grados de foneticidad -es decir, solamente hasta cierto punto la graf\u00eda de las palabras determina su pronunciaci\u00f3n. El ingl\u00e9s, por ejemplo, tiene una ortograf\u00eda muy poco fon\u00e9tica. Palabras que se escriben de diferente manera, como\u00a0<em>rite<\/em> (rito),<em>write<\/em> (escribir),<em>right<\/em> (correcto) y\u00a0<em>wright<\/em> (artesano) son pronunciadas exactamente de la misma manera, y por tanto, tienen la misma transcripci\u00f3n fon\u00e9tica: rait. La ortograf\u00eda del portugu\u00e9s tiene una foneticidad mediana, pero no por eso ofrece menos dificultades. Para tomar solamente un ejemplo, basta recordar que la letra &#8220;x&#8221; puede sonar como &#8220;sh&#8221;, &#8220;s&#8221;, &#8220;ks&#8221; o &#8220;bz&#8221;.<\/p>\n<p>&#8220;El portugu\u00e9s es m\u00e1s o menos tranquilo, pero el espa\u00f1ol es mucho mejor&#8221;, bromea Eleonora. Al abordar esta cuesti\u00f3n, un ne\u00f3fito puede imaginar que la construcci\u00f3n de una base de datos con todas las palabras del idioma es la soluci\u00f3n. Pero un emprendimiento de esa naturaleza, al margen de ser monumental, estar\u00eda condenado al fracaso: el lenguaje es din\u00e1mico, y nuevas palabras surgen todos los d\u00edas. A su vez, la pronunciaci\u00f3n de un mismo vocablo var\u00eda seg\u00fan el contexto, lo que implicar\u00eda la necesidad de grabar la misma palabra varias veces -sencillamente no habr\u00eda diccionario de ese tama\u00f1o. Aun las palabras de uso difundido pueden no estar diccionarizadas, as\u00ed como las conjugaciones verbales y las formas diminutivas y superlativas. El software necesita principalmente par\u00e1metros que rijan la pronunciaci\u00f3n de la m\u00e1quina.<\/p>\n<p>&#8220;Optamos por limitarnos a alrededor de 2.500 fragmentos de grabaciones&#8221;, comenta Eleonora. El n\u00famero no es alto, pero los tramos fueron sometidos a una rigurosa selecci\u00f3n. En \u00e9sta los investigadores no trabajaron con un concepto tradicional de la ling\u00fc\u00edstica, que define al fonema como la menor unidad mental correspondiente al sonido. El equipo, desde el inicio del trabajo, sustenta una postura te\u00f3rica seg\u00fan la cual el fonema es una abstracci\u00f3n influida por la escritura alfab\u00e9tica. Uno de los puntos del estudio fueron los diversos fonemas, que sufren influencia de aqu\u00e9llos que los preceden y de los subsiguientes.<\/p>\n<p>&#8220;Muchos factores se combinan en la articulaci\u00f3n de los sonidos, y una &#8216;p&#8217; seguida de una &#8216;a&#8217; es pronunciada de diferente manera que una &#8216;p&#8217; seguida de una &#8216;i&#8217; o de una &#8216;u'&#8221;, observa Eleonora.Otro problema en el desarrollo de un sistema de habla son las diferencias entre las representaciones gr\u00e1ficas del texto y la manera como \u00e9stas se expresan en el habla. Las abreviaturas, por ejemplo, pueden leerse de diferente manera, aun cuando tengan el mismo n\u00famero de caracteres y sean igualmente &#8220;pronunciables&#8221;. En tal sentido, se puede comparar UTI con IEL o ITA, por ejemplo. La lectura de n\u00fameros telef\u00f3nicos es diferente de una expresi\u00f3n num\u00e9rica -nadie leer\u00eda 32220000 como 32 millones, 220 mil. Las medidas de longitud se escriben de la misma manera en singular y en plural: 1 metro y 100 m. Todo esto exige algoritmos complejos.<\/p>\n<p><strong>Emoci\u00f3n y sutilezas<\/strong><\/p>\n<p>&#8220;Aunque el Aiuruet\u00ea ya puede utilizarse en una serie de aplicaciones, se encuentra a\u00fan en fase de desarrollo&#8221;, afirma Violaro. Entre las mejoras figura la asimilaci\u00f3n de las sutilezas de los ritmos de la forma de hablar brasile\u00f1a. &#8220;En el futuro pretendemos que el Aiuruet\u00ea exprese incluso las diferencias t\u00f3nicas de la emoci\u00f3n&#8221;, dice Eleonora. Seg\u00fan Violaro, el programa comienza a suscitar el inter\u00e9s de algunas empresas especializadas en tecnolog\u00eda de la informaci\u00f3n. Una de \u00e9stas pretende emplear el Aiuruet\u00ea en un sistema de autoatenci\u00f3n para consultorios m\u00e9dicos, para agendar consultas y otras funciones. Asimismo, el trabajo tambi\u00e9n resultar\u00e1 en la construcci\u00f3n de una base p\u00fablica de conocimientos de los aspectos f\u00f3nicos del portugu\u00e9s hablado en Brasil. As\u00ed, el software estar\u00e1 m\u00e1s cerca de una de las caracter\u00edsticas m\u00e1s apreciadas de los loros habladores: la de ser el m\u00e1s parlanch\u00edn de la familia de los psitac\u00eddeos.<\/p>\n<p><strong>El proyecto<\/strong><br \/>\nProcesamiento de Textos y Se\u00f1ales Ac\u00fasticas en Portugu\u00e9s Brasile\u00f1o: Una Interfaz Ling\u00fc\u00edstica &#8211; Ingenier\u00eda para la Ciencia y la Tecnolog\u00eda del Habla\u00a0(<a href=\"http:\/\/www.bv.fapesp.br\/pt\/auxilios\/1554\/processamento-de-texto-e-sinal-acustico-em-portugues-brasileiro-uma-interface-linguistica-engenhari\/\" target=\"_blank\">n\u00ba\u00a093\/00565-2<\/a>);\u00a0<strong>Modalidad\u00a0<\/strong>Proyecto tem\u00e1tico; <strong>Coordinadora <\/strong>Eleonora Cavalcante Albano &#8211; Instituto de Estudios del Lenguaje de la Unicamp;\u00a0<strong>Inversi\u00f3n\u00a0<\/strong>R$ 9.528,00 y US$ 58.672,00<\/p>\n","protected":false},"excerpt":{"rendered":"Ling\u00fcistas e ingenieros de la Unicamp elaboran un sistema de habla","protected":false},"author":154,"featured_media":0,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"_exactmetrics_skip_tracking":false,"_exactmetrics_sitenote_active":false,"_exactmetrics_sitenote_note":"","_exactmetrics_sitenote_category":0,"footnotes":""},"categories":[192],"tags":[],"coauthors":[467],"class_list":["post-76603","post","type-post","status-publish","format-standard","hentry","category-tecnologia-es"],"acf":[],"_links":{"self":[{"href":"https:\/\/revistapesquisa.fapesp.br\/es\/wp-json\/wp\/v2\/posts\/76603","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/revistapesquisa.fapesp.br\/es\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/revistapesquisa.fapesp.br\/es\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/revistapesquisa.fapesp.br\/es\/wp-json\/wp\/v2\/users\/154"}],"replies":[{"embeddable":true,"href":"https:\/\/revistapesquisa.fapesp.br\/es\/wp-json\/wp\/v2\/comments?post=76603"}],"version-history":[{"count":0,"href":"https:\/\/revistapesquisa.fapesp.br\/es\/wp-json\/wp\/v2\/posts\/76603\/revisions"}],"wp:attachment":[{"href":"https:\/\/revistapesquisa.fapesp.br\/es\/wp-json\/wp\/v2\/media?parent=76603"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/revistapesquisa.fapesp.br\/es\/wp-json\/wp\/v2\/categories?post=76603"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/revistapesquisa.fapesp.br\/es\/wp-json\/wp\/v2\/tags?post=76603"},{"taxonomy":"author","embeddable":true,"href":"https:\/\/revistapesquisa.fapesp.br\/es\/wp-json\/wp\/v2\/coauthors?post=76603"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}