A voz do computador : Revista Pesquisa Fapesp

Se um bom número de máquinas já “fala” suficientemente bem para a realização de tarefas simples, e muitas pessoas há alguns anos “conversam” com sistemas automatizados de atendimento telefônico e caixas automáticos bancários, os recursos de voz sintética em uso comercial ainda apresentam dificuldades de reproduzir a fala humana com naturalidade. E seu vocabulário é muito limitado. Mas há indícios de que, em breve, os computadores perderão o “sotaque digital” e ampliarão o universo lingüístico. Grandes companhias começam a obter resultados mais naturais e agradáveis aos ouvidos.

Essa busca pela perfeição sonora dos computadores começou cedo na Universidade Estadual de Campinas (Unicamp). Um projeto conjunto, iniciado em 1991, entre as áreas de lingüística e engenharia elétrica produziu um software que hoje é capaz de ler em voz alta qualquer texto escrito em português, sem o sotaque inglês característico dos sistemas produzidos fora do país. O programa brasileiro leva o nome de Aiuruetê, que, em língua tupi, significa “papagaio verdadeiro”.

Desde o início, o desenvolvimento do sistema esteve subordinado a fins científicos, mas o projeto também produziu resultados tecnológicos. “Queríamos criar um sistema de síntese da fala em português brasileiro a partir da pesquisa básica e voltado para ela”, lembra a professora Eleonora Cavalcante Albano, do Laboratório de Fonética e Psicolingüística do Instituto de Estudos da Linguagem (Lafape/IEL), coordenadora do trabalho. Mantendo a meta inicial e com uma visão abrangente da descrição fonético-acústica da língua, a iniciativa incluía estudos de problemas de desenvolvimento e distúrbios articulatórios, teoria fonológica, fonoestilística e análise e síntese de fala.

Evolução rápida
Em 1992, o professor Fábio Violaro, coordenador do Laboratório de Processamento Digital de Fala da Faculdade de Engenharia Elétrica (LPDF/Feec) e seu grupo de pesquisadores abraçaram o projeto do Lafape. “Já estávamos trabalhando com síntese de fala, mas os resultados dos nossos esforços eram limitados justamente pela falta de conhecimentos lingüísticos”, diz Violaro. Na época, os microcomputadores estavam evoluindo a passo rápido, e seus recursos de processamento e memória já possibilitavam o desenvolvimento de programas de síntese de voz. Hoje, o Aiuruetê roda em qualquer computador com sistema operacional Windows.

Os programas de síntese de fala, que podem contribuir bastante para o ensino a distância e a educação de deficientes visuais, além de uma série de aplicações comerciais, em geral se baseiam na conversão texto-fala. Como seus similares estrangeiros, o Aiuruetê trabalha com informações textuais, que, na fase de pré-processamento, são submetidas a uma análise, inclusive das características gramaticais (siglas, abreviaturas e símbolos gráficos), e reescritas por extenso da maneira como são lidas. Depois, ganham transcrição fonética. Então, o software busca, em seu banco de dados, as emissões compatíveis com o material transcrito e dá conta da concatenação dos elementos fônicos que compõem as palavras, fornecendo-lhes ainda informação sobre a entonação e o ritmo do português brasileiro. Parece fácil? Bem, não é – tanto assim que, desde o início da chamada era digital, a síntese de fala desafia pesquisadores de todo o mundo, que têm obtido um nível de sucesso apenas razoável.

Vários fatores contribuem para a complexidade do processo, em qualquer idioma. Em primeiro lugar, sistemas escritos de línguas diferentes possuem também variados graus de foneticidade – só até certo ponto a grafia das palavras determina sua pronúncia. O inglês, por exemplo, tem uma ortografia muito pouco fonética. Palavras grafadas de maneira distinta, como rite (rito), write (escrever), right (certo) e wright (artesão) são pronunciadas exatamente da mesma maneira e, portanto, têm a mesma transcrição fonética: rait. A ortografia do português tem foneticidade média, mas nem por isso oferece menos dificuldades. Para ficar em um só exemplo, basta lembrar que a letra “x” pode ter som de “ch”, de “s”, de “ks” ou de “z”. “O português é bonzinho, mas o espanhol é muito melhor”, brinca Eleonora.

Ao abordar a questão, um leigo pode imaginar que a construção de uma base de dados com todas as palavras da língua é a solução. Mas um empreendimento desse tipo, além de monumental, estaria fadado ao fracasso: a linguagem é dinâmica, e novas palavras surgem a cada dia. Além disso, a pronúncia de um mesmo vocábulo varia conforme o contexto, o que implicaria a necessidade de gravar a mesma palavra várias vezes – simplesmente não haveria dicionário com esse tamanho. Mesmo palavras de uso difundido podem não estar dicionarizadas, assim como as flexões verbais e as formas diminutivas e superlativas.

O software precisa, principalmente, de parâmetros que orientem a pronúncia da máquina. “Optamos por nos limitar a cerca de 2.500 excertos de gravações”, conta Eleonora. O número não é alto, mas os trechos foram submetidos a uma rigorosa seleção. Nela, os pesquisadores não trabalharam um conceito tradicional da lingüística que define o fonema como a menor unidade mental correspondente ao som. A equipe, desde o início do trabalho, mantém a posição teórica segundo a qual o fonema é uma abstração influenciada pela escrita alfabética. Um dos pontos do estudo foram os diversos fonemas que sofrem influência daqueles que os precedem e dos seguintes a eles. “Muitos fatores se combinam na articulação dos sons, e um ‘p’ sucedido de um ‘a’ é pronunciado diferentemente de um ‘p’ sucedido de um ‘i’ ou de um ‘u'”, observa Eleonora.

Outro problema no desenvolvimento de um sistema de fala são as diferenças entre as representações gráficas do texto e a maneira como elas se expressam na fala. As abreviaturas, por exemplo, podem ser lidas diferentemente mesmo quando têm o mesmo número de caracteres e são igualmente “pronunciáveis”. Nesse sentido, vale comparar UTI com IEL ou ITA, por exemplo. A leitura de número de telefone é diferente de uma expressão numérica – ninguém leria 32220000 como 32 milhões e 220 mil. As medidas de comprimento são grafadas da mesma maneira no singular e no plural: 1 metro e 100 m. Tudo isso exige algoritmos complexos.

Emoção e sutilezas
“Embora já possa ser utilizado em uma série de aplicações, o Aiuruetê ainda está em desenvolvimento”, afirma Violaro. Entre os aprimoramentos, está a assimilação das sutilezas dos ritmos do falar brasileiro. “No futuro, queremos que o Aiuruetê expresse até os diferenciais tônicos da emoção”, diz Eleonora. Segundo Violaro, o programa começa a despertar o interesse de algumas empresas especializadas em tecnologia da informação. Uma delas quer empregar o Aiuruetê em um sistema de auto-atendimento voltado para consultórios médicos, com agendamento de consultas e outras funcionalidades. Além disso, o trabalho também resultará na construção de uma base pública de conhecimentos dos aspectos fônicos do português falado no Brasil. Assim, o software estará mais próximo de uma das características mais apreciadas dos papagaios verdadeiros: a de ser o mais tagarela da família dos psitacídeos.

O projeto
Processamento de texto e sinal acústico em português brasileiro: uma interface lingüística: engenharia para a ciência e tecnologia da fala (nº 93/00565-2); Modalidade Projeto temático; Coordenadora Eleonora Cavalcante Albano – Instituto de Estudos da Linguagem da Unicamp; Investimento R$ 9.528,00 e US$ 58.672,00

Republicar