Alguns algoritmos de inteligência artificial (IA) são desenvolvidos para aprender a reconhecer a música preferida do usuário, o gênero de filmes que lhe interessa, os assuntos que busca no jornal. O objetivo desse tipo de programação é identificar padrões – e, assim, automatizar decisões e facilitar a vida das pessoas. No entanto, por serem feitos para assimilar modelos de comportamento, os algoritmos também podem replicar atitudes que reforçam o racismo, a misoginia e a homofobia. Absorvem, reproduzem e, como resultado, robustecem a discriminação e a intolerância nas mais variadas formas.
Em agosto deste ano, um estudo realizado por pesquisadores da Universidade Federal de Minas Gerais (UFMG) apresentou um exemplo tão contundente desse círculo vicioso que repercutiu em diversas publicações da imprensa internacional: um processo de radicalização política no YouTube no contexto norte-americano, onde o algoritmo de recomendação tem um importante papel. “Já havia pesquisas qualitativas e reportagens que mostravam o YouTube como um terreno fértil para a proliferação de comunidades obscuras vinculadas à chamada alt-right [direita alternativa] norte-americana, cujas ideias são intimamente relacionadas à supremacia branca”, diz o cientista da computação Manoel Horta Ribeiro, atualmente doutorando na Escola Politécnica Federal de Lausanne (EPFL), na Suíça. No mestrado na UFMG, sob orientação dos cientistas da computação Wagner Meira Jr. e Virgílio Almeida, ele queria entender como esse fenômeno acontecia.
O grupo vasculhou 331.849 vídeos de 360 canais de diferentes orientações políticas e rastreou 79 milhões de comentários. Um volume imenso de dados, tratável justamente graças a recursos de inteligência artificial. “O único trabalho manual foi a classificação dos canais conforme a orientação política, utilizando estudos e dados de ONGs [Organizações Não Governamentais] como a ADL [Anti-Defamation League]”, diz Ribeiro. Os resultados revelaram que os canais supremacistas brancos são beneficiados pela migração de apreciadores de canais politicamente conservadores de conteúdo menos radical. “Rastreamos a trajetória dos usuários que comentavam vídeos de canais conservadores e descobrimos que, com o passar do tempo, eles comentavam vídeos dos canais mais radicais. Havia uma migração consistente dos conteúdos mais leves para os mais extremos”, lembra Ribeiro. “Ainda estamos tentando entender o porquê dessa migração, mas acho que três razões podem explicar o fenômeno: o formato da mídia, na qual todos podem criar conteúdo e na qual os espectadores interagem muito diretamente com os criadores; o atual cenário político mundial; e o algoritmo, que permite que usuários encontrem ou continuem a consumir conteúdo extremista por meio do sistema de recomendação.”
As pesquisas envolvendo o YouTube vêm se tornando mais relevantes nos últimos anos. Segundo o cientista da computação Virgílio Almeida, professor emérito do Departamento de Ciência da Computação da UFMG, a plataforma de vídeos já se mostrou muito interessante para a ciência. “O número de usuários é enorme – mais de 2 bilhões no mundo e 70 milhões no Brasil –, assim como seu impacto na sociedade”, diz o pesquisador. Seu departamento se tornou um verdadeiro celeiro de pesquisas sobre o fenômeno das redes sociais.
Com experiência anterior em análise de desempenho de sistemas computacionais, Almeida começou a se dedicar às redes sociais em 2007. Em uma sociedade cada vez mais conectada, o número e a abrangência dos estudos nesse campo cresceu. “Além dos alunos de computação, tive estudantes de economia, psicologia e letras. Entre os colaboradores mais recentes alguns são do direito, da administração e das ciências políticas”, enumera Almeida.
Os estudos que tiveram maior repercussão vieram do campo político – polarizado tanto nos Estados Unidos quanto no Brasil. Em 2018, uma análise de discurso de ódio e discriminação em vídeos postados no YouTube por grupos de direita norte-americanos teve destaque na International ACM Conference on Web Science, na Holanda. O trabalho foi reconhecido como o melhor feito por estudantes: os alunos de doutorado Raphael Ottoni, Evandro Cunha, Gabriel Magno e Pedro Bernardina – todos do grupo de Wagner Meira Jr. e Virgílio Almeida.
Para investigar as falas transcritas dos YouTubers e os comentários postados nos vídeos, os pesquisadores da UFMG utilizaram as ferramentas Linguistic Inquiry Word Count (LIWC) e Latent Dirichlet Allocation (LDA). O LIWC permite a classificação de palavras em categorias correspondentes à estrutura das frases (pronomes, verbos, advérbios etc.) e ao conteúdo emocional (se expressam alegria, tristeza, raiva etc.). O LDA busca palavras que possam definir os principais tópicos de uma conversa.
“Utilizamos também uma ferramenta baseada em um teste psicológico para observar o viés dessas postagens”, explica Raphael Ottoni. Segundo ele, a ferramenta se baseia na comparação das distâncias entre palavras situadas em um mesmo contexto, com o fim de estabelecer associações. Isso é feito por meio de técnicas de aprendizado de máquina que convertem as palavras de um texto em vetores de números, por sua vez usados para calcular a similaridade semântica das palavras. Assim, em um determinado assunto, palavras que se situam mais próximas tendem a estabelecer entre si uma associação de significado. “Palavras como cristianismo apareciam no texto associadas com atributos de valor positivo, como bom ou honesto, enquanto islamismo era frequentemente relacionada a terrorismo e morte”, diz Ottoni. Semelhante tendência preconceituosa foi encontrada nas referências a comunidades LGBTQI+.
Essas técnicas foram, então, aplicadas à conjuntura brasileira. Os pesquisadores estudaram vídeos publicados no YouTube durante o período de eleições presidenciais de 2018, em 55 canais identificados com posições políticas desde a extrema esquerda até a extrema direita. Mensagens de ódio e teorias conspiratórias foram identificadas com mais frequência nos canais de extrema direita – e foram justamente esses que tiveram maior crescimento no número de visualizações, possivelmente influenciando o resultado das urnas.
O grupo de pesquisadores está agora finalizando um artigo sobre os resultados dessa análise. Mas, antes mesmo da publicação, o estudo foi citado por uma reportagem do jornal The New York Times, que fez uma série sobre a influência do YouTube em diferentes países, com destaque para o Brasil.
Atração perigosa
Segundo Almeida, outras pesquisas já constataram que os algoritmos de recomendação de notícias e vídeos acabam se valendo da atração humana por notícias negativas e teorias conspiratórias para aumentar o engajamento dos usuários com a plataforma. “Uma pesquisa de um grupo do MIT [Instituto de Tecnologia de Massachusetts] publicada na revista científica Science mostra que os medos, as raivas as emoções mais extremas são fatores-chave na disseminação de tweets com falsidades”, destaca.
Da mesma maneira que o algoritmo aprende as músicas e os filmes preferidos do usuário, ele também aprende suas preferências políticas, razão pela qual as plataformas de compartilhamento de conteúdo – como o Facebook – transformam-se em bolhas quase intransponíveis de um determinado espectro político. O usuário recebe apenas as informações que corroboram suas opiniões prévias.
Foi para estudar esse fenômeno – inspirado pelo livro O filtro invisível (Zahar, 2012), do ativista político norte-americano Eli Pariser – que o cientista da computação norte-americano Christo Wilson, da Northeastern University, dos Estados Unidos, entrou no campo das redes sociais, em 2012. “Minhas pesquisas focavam, originalmente, o estudo da personalização dos algoritmos utilizados pelos mecanismos de busca, e desde então tenho expandido para outros tipos de algoritmos e contextos”, disse o pesquisador para Pesquisa FAPESP.
Atualmente em período sabático no Centro Berkman Klein para Internet e Sociedade, da Universidade Harvard, Estados Unidos, onde Almeida atua como professor-associado, Wilson tem acompanhado com interesse os achados dos pesquisadores mineiros. “Gosto muito dos estudos de Virgílio Almeida, Wagner Meira e Fabrício Benevenuto; eles fazem um trabalho incrível nas mídias sociais.” Em 2020, Wilson também pretende se voltar ao campo da política: planeja um grande estudo acerca do impacto das redes sociais nas próximas eleições de seu país. “Vamos monitorar a maioria dos serviços on-line para tentar entender como as pessoas encontram conteúdos e como eles afetam seu comportamento”, adianta.
Discriminação algorítmica
A política é apenas um dos muitos temas que têm estimulado pesquisas do Departamento de Ciência da Computação da UFMG. O viés algorítmico pode ser encontrado onde menos se espera – como, por exemplo, nos serviços de assistentes inteligentes de voz do celular. Uma pesquisa realizada em parceria entre a Universidade de Fortaleza (Unifor) e o grupo da UFMG identificou que a eficiência dos assistentes de voz, como Google e Siri, varia conforme o sotaque e o nível de escolaridade.
A cientista da computação Elizabeth Sucupira Furtado, coordenadora do Laboratório de Estudos dos Usuários e da Qualidade em Uso de Sistemas (Luqs), da Unifor, conduziu um estudo qualitativo, em sessões individuais e presenciais, com dois grupos de voluntários: moradores da capital cearense, entre os quais vários nascidos em outros estados, e estudantes de uma classe noturna de Educação de Jovens e Adultos (EJA). “Percebemos que os usuários nascidos nas regiões Sudeste e Sul eram mais compreendidos pelos softwares de assistentes de voz do que os outros”, revela a pesquisadora.
Erros de pronúncia (cacoépia), gagueira ou repetição de palavras e truncamentos (disfluência) também trouxeram prejuízos ao desempenho dos assistentes robóticos. Segundo a pesquisadora, uma vez que o sistema aprende com usuários que têm mais escolaridade, o treinamento dos assistentes de voz tende a se limitar a falas padronizadas. “É importante que as empresas percebam que existe um público que não está sendo atendido”, alerta Furtado. “Essas pessoas continuam excluídas da inovação tecnológica.”
Nos mecanismos de busca também se ocultam preconceitos. Foi o que demonstrou a cientista da computação Camila Souza Araújo em sua dissertação de mestrado pela UFMG, em 2017. Nos buscadores do Google e do Bing, a pesquisadora procurou pelos termos “mulheres bonitas” e “mulheres feias” e constatou um preconceito indiscutível de raça e idade. As mulheres identificadas como bonitas eram, majoritariamente, brancas e jovens. O viés se reproduziu na maioria dos 28 países onde o buscador Bing está presente e 41 países que utilizam o Google, mesmo os situados no continente africano.
A receita do preconceito
Ao utilizar sistemas de aprendizagem de máquina, a sociedade corre o risco de perpetuar preconceitos inadvertidamente, graças ao senso comum que vê a matemática como neutra. Um engenheiro de dados norte-americano, Fred Benenson, cunhou um termo para definir esse risco: mathwashing. Ele se baseou no greenwashing, o uso de estratégias de marketing pelas empresas para simular preocupação ambiental. Da mesma maneira, a ideia de que os algoritmos sejam neutros também beneficia e isenta de responsabilidade as empresas que os utilizam.
Ocorre que os sistemas de inteligência artificial são alimentados por dados, e quem faz a seleção desses dados são seres humanos – que podem ser movidos por preconceitos de forma inconsciente ou intencional. Um exemplo disso foi explicitado por um estudo publicado em outubro na revista Science, liderado por um pesquisador da Faculdade de Saúde Pública da Universidade da Califórnia em Berkeley, nos Estados Unidos. Em um grande hospital daquele país, o grupo norte-americano verificou que o algoritmo responsável por classificar os pacientes mais necessitados de acompanhamento – por estarem em maior risco – privilegiava brancos em detrimento de negros. Isso acontecia porque o sistema se baseava nos pagamentos aos planos de saúde, que são maiores no caso de pessoas que têm mais acesso a atendimento médico, e não na probabilidade de cada um ter doenças graves ou crônicas.