Uma nova ferramenta pretende analisar características de textos para identificar se afirmações difundidas na internet ou por aplicativos de mensagens são verdadeiras ou falsas. O detector de fake news foi desenvolvido por um grupo de pesquisadores da Universidade de São Paulo (USP) e da Universidade Federal de São Carlos (UFSCar) e está em fase de testes, mas já é possível consultá-lo. Para fazer a checagem de uma notícia, basta acessar o site ou o perfil do projeto no WhatsApp e inserir o conteúdo duvidoso. Em poucos segundos, o sistema indica se a notícia pode ser falsa ou se aparenta ser verdadeira.
A iniciativa chega em bom momento: a disseminação de fake news pelas redes sociais e por aplicativos de troca de mensagens como o WhatsApp tornou-se uma das principais pautas do debate político no Brasil, especialmente no cenário eleitoral contaminado pela ágil propagação desse tipo de conteúdo. Na esfera acadêmica, especialistas de áreas distintas do conhecimento mobilizam esforços não apenas para compreender o fenômeno, mas também para encontrar formas de restringir o alcance das notícias falsas.
Intitulada Detecção Automática de Notícias Falsas para o Português, a plataforma foi desenvolvida pelo grupo de pesquisa coordenado pelo cientista da computação Thiago Pardo, do Núcleo Interinstitucional de Linguística Computacional (Nilc), no campus de São Carlos da USP. Os resultados foram descritos na publicação Computational Processing of the Portuguese Language, que reúne contribuições apresentadas em uma conferência internacional realizada em Canela, Rio Grande do Sul, no final de setembro. O trabalho se baseou em estudo de 2015 feito por Verónica Pérez-Rosas e Rada Mihalcea, da Universidade de Michigan, Estados Unidos, que os pesquisadores brasileiros adaptaram e aperfeiçoaram para desenvolver uma iniciativa inédita em língua portuguesa. “Existem outras ferramentas que tentam educar o usuário diante das fake news, mas o nosso sistema é o primeiro capaz de classificar notícias falsas e verdadeiras automaticamente em português”, afirma Pardo.
Para desenvolver um sistema computacional capaz de entender se o conteúdo de uma informação é falso, os pesquisadores da USP e da UFSCar aplicaram técnicas de inteligência artificial, especialmente de aprendizado de máquinas. O primeiro passo foi criar uma base de textos com 3,6 mil notícias verdadeiras, extraídas da grande imprensa, e o mesmo número de textos falsos. A partir desse conjunto de informações o sistema identificou as principais características dos textos no que se refere a classes gramaticais (quantidade de verbos, substantivos, adjetivos e advérbios, por exemplo), riqueza do vocabulário, tamanho da frase e erros ortográficos, entre outros parâmetros. Ou seja, ainda que de forma inconsciente, quem escreve uma notícia falsa deixa rastros no estilo do texto.
“Ao processar as informações da base de textos, a inteligência artificial identifica um padrão que caracteriza as notícias falsas e as verdadeiras”, detalha Pardo. “Com base nesse padrão, o sistema consegue classificar o texto inserido pelo usuário como verdadeiro ou falso.” Uma das características mais marcantes das fake news, por exemplo, é a presença de erros – 36% dos textos falsos trazem algum erro ortográfico, ante 3% das notícias verdadeiras.
Os pesquisadores incluíram quatro outros critérios para a classificação do texto, em relação ao estudo original da Universidade de Michigan: a pausalidade (quantidade de pontuação média utilizada no texto); a emotividade (medida pela quantidade de adjetivos e advérbios em relação a substantivos e verbos); o não imediatismo (a frequência de pronomes de primeira e segunda pessoa); e a incerteza (medida pela quantidade de verbos auxiliares – “pode ter havido” em vez de “houve”). Por esses critérios, as notícias falsas apresentam textos menos pausados e mais emotivos, pessoais e especulativos. “Ao acrescentar esses critérios conseguimos melhorar a precisão da ferramenta”, explica o cientista da computação Roney Santos, doutorando no grupo de Pardo.
Mesmo aperfeiçoada, a ferramenta tem limitações e não está imune a equívocos. Atualmente, a plataforma só é capaz de dizer se uma notícia é falsa ou verdadeira, sendo incapaz de classificar conteúdos parcialmente falsos, com trechos reais e outros mentirosos. “O usuário da nossa ferramenta não deve acreditar em tudo que recebe por WhatsApp ou pela rede social, mas também não pode presumir que tudo o que o nosso detector aponta está certo. A ferramenta deve ser um apoio a mais ao usuário e serve para conscientizá-lo da importância de checar uma informação antes de compartilhá-la”, aponta Pardo.
O projeto, iniciado há cerca de um ano e meio, ainda prevê uma série de melhorias que devem, gradativamente, aumentar a capacidade de checagem do sistema. Um dos objetivos é permitir a classificação de notícias parcialmente falsas – a ambição é que a ferramenta grife os trechos inverídicos presentes no texto. Em uma próxima etapa, o grupo também pretende capacitar o sistema para fazer a checagem automática de fatos, trabalho atualmente feito por agências de notícias. “Estamos começando a desenvolver softwares nessa linha usando estudos que já existem. Uma das formas de fazer isso é separar as frases da notícia e ensinar a máquina a fazer a checagem em outras fontes automaticamente, para ver se a informação foi publicada em algum outro veículo”, detalha o coordenador do projeto.
O detector de fake news está integrado em um projeto de pesquisa mais amplo, cujo objetivo é aprofundar os estudos no campo da chamada “mineração de opinião”, voltado para o processamento e análise de informações na internet, que permite extrair conhecimento relevante que ajude o usuário em decisões de compra e investimento, por exemplo. “O nosso projeto tem outras ambições, e o primeiro passo dessa etapa de mineração é jogar fora o conteúdo enganoso presente na internet, como as fake news”, explica Pardo.
Artigo
MONTEIRO, R. A. et al. Contributions to the study of fake news in Portuguese: New corpus and automatic detection results. Computational Processing of the Portuguese Language. p. 324-34. 26 ago. 2018.