Computação

Algoritmos parciais

Como a inteligência artificial absorve padrões discriminatórios e o que a ciência pode fazer para evitar essas distorções

Algoritmo do YouTube conduz a conteúdos cada vez mais extremistas, sobretudo à direita no espectro político

Léo Ramos Chaves

Alguns algoritmos de inteligência artificial (IA) são desenvolvidos para aprender a reconhecer a música preferida do usuário, o gênero de filmes que lhe interessa, os assuntos que busca no jornal. O objetivo desse tipo de programação é identificar padrões – e, assim, automatizar decisões e facilitar a vida das pessoas. No entanto, por serem feitos para assimilar modelos de comportamento, os algoritmos também podem replicar atitudes que reforçam o racismo, a misoginia e a homofobia. Absorvem, reproduzem e, como resultado, robustecem a discriminação e a intolerância nas mais variadas formas.

Em agosto deste ano, um estudo realizado por pesquisadores da Universidade Federal de Minas Gerais (UFMG) apresentou um exemplo tão contundente desse círculo vicioso que repercutiu em diversas publicações da imprensa internacional: um processo de radicalização política no YouTube no contexto norte-americano, onde o algoritmo de recomendação tem um importante papel. “Já havia pesquisas qualitativas e reportagens que mostravam o YouTube como um terreno fértil para a proliferação de comunidades obscuras vinculadas à chamada alt-right [direita alternativa] norte-americana, cujas ideias são intimamente relacionadas à supremacia branca”, diz o cientista da computação Manoel Horta Ribeiro, atualmente doutorando na Escola Politécnica Federal de Lausanne (EPFL), na Suíça. No mestrado na UFMG, sob orientação dos cientistas da computação Wagner Meira Jr. e Virgílio Almeida, ele queria entender como esse fenômeno acontecia.

O grupo vasculhou 331.849 vídeos de 360 canais de diferentes orientações políticas e rastreou 79 milhões de comentários. Um volume imenso de dados, tratável justamente graças a recursos de inteligência artificial. “O único trabalho manual foi a classificação dos canais conforme a orientação política, utilizando estudos e dados de ONGs [Organizações Não Governamentais] como a ADL [Anti-Defamation League]”, diz Ribeiro. Os resultados revelaram que os canais supremacistas brancos são beneficiados pela migração de apreciadores de canais politicamente conservadores de conteúdo menos radical. “Rastreamos a trajetória dos usuários que comentavam vídeos de canais conservadores e descobrimos que, com o passar do tempo, eles comentavam vídeos dos canais mais radicais. Havia uma migração consistente dos conteúdos mais leves para os mais extremos”, lembra Ribeiro. “Ainda estamos tentando entender o porquê dessa migração, mas acho que três razões podem explicar o fenômeno: o formato da mídia, na qual todos podem criar conteúdo e na qual os espectadores interagem muito diretamente com os criadores; o atual cenário político mundial; e o algoritmo, que permite que usuários encontrem ou continuem a consumir conteúdo extremista por meio do sistema de recomendação.”

As pesquisas envolvendo o YouTube vêm se tornando mais relevantes nos últimos anos. Segundo o cientista da computação Virgílio Almeida, professor emérito do Departamento de Ciência da Computação da UFMG, a plataforma de vídeos já se mostrou muito interessante para a ciência. “O número de usuários é enorme – mais de 2 bilhões no mundo e 70 milhões no Brasil –, assim como seu impacto na sociedade”, diz o pesquisador. Seu departamento se tornou um verdadeiro celeiro de pesquisas sobre o fenômeno das redes sociais.

Com experiência anterior em análise de desempenho de sistemas computacionais, Almeida começou a se dedicar às redes sociais em 2007. Em uma sociedade cada vez mais conectada, o número e a abrangência dos estudos nesse campo cresceu. “Além dos alunos de computação, tive estudantes de economia, psicologia e letras. Entre os colaboradores mais recentes alguns são do direito, da administração e das ciências políticas”, enumera Almeida.

Entrevista: Virgílio Almeida

Os estudos que tiveram maior repercussão vieram do campo político – polarizado tanto nos Estados Unidos quanto no Brasil. Em 2018, uma análise de discurso de ódio e discriminação em vídeos postados no YouTube por grupos de direita norte-americanos teve destaque na International ACM Conference on Web Science, na Holanda. O trabalho foi reconhecido como o melhor feito por estudantes: os alunos de doutorado Raphael Ottoni, Evandro Cunha, Gabriel Magno e Pedro Bernardina – todos do grupo de Wagner Meira Jr. e Virgílio Almeida.

Para investigar as falas transcritas dos YouTubers e os comentários postados nos vídeos, os pesquisadores da UFMG utilizaram as ferramentas Linguistic Inquiry Word Count (LIWC) e Latent Dirichlet Allocation (LDA). O LIWC permite a classificação de palavras em categorias correspondentes à estrutura das frases (pronomes, verbos, advérbios etc.) e ao conteúdo emocional (se expressam alegria, tristeza, raiva etc.). O LDA busca palavras que possam definir os principais tópicos de uma conversa.

“Utilizamos também uma ferramenta baseada em um teste psicológico para observar o viés dessas postagens”, explica Raphael Ottoni. Segundo ele, a ferramenta se baseia na comparação das distâncias entre palavras situadas em um mesmo contexto, com o fim de estabelecer associações. Isso é feito por meio de técnicas de aprendizado de máquina que convertem as palavras de um texto em vetores de números, por sua vez usados para calcular a similaridade semântica das palavras. Assim, em um determinado assunto, palavras que se situam mais próximas tendem a estabelecer entre si uma associação de significado. “Palavras como cristianismo apareciam no texto associadas com atributos de valor positivo, como bom ou honesto, enquanto islamismo era frequentemente relacionada a terrorismo e morte”, diz Ottoni. Semelhante tendência preconceituosa foi encontrada nas referências a comunidades LGBTQI+.

Essas técnicas foram, então, aplicadas à conjuntura brasileira. Os pesquisadores estudaram vídeos publicados no YouTube durante o período de eleições presidenciais de 2018, em 55 canais identificados com posições políticas desde a extrema esquerda até a extrema direita. Mensagens de ódio e teorias conspiratórias foram identificadas com mais frequência nos canais de extrema direita – e foram justamente esses que tiveram maior crescimento no número de visualizações, possivelmente influenciando o resultado das urnas.

O grupo de pesquisadores está agora finalizando um artigo sobre os resultados dessa análise. Mas, antes mesmo da publicação, o estudo foi citado por uma reportagem do jornal The New York Times, que fez uma série sobre a influência do YouTube em diferentes países, com destaque para o Brasil.

Léo Ramos Chaves Mecanismos de busca e redes sociais refletem e reforçam preconceitosLéo Ramos Chaves

Atração perigosa
Segundo Almeida, outras pesquisas já constataram que os algoritmos de recomendação de notícias e vídeos acabam se valendo da atração humana por notícias negativas e teorias conspiratórias para aumentar o engajamento dos usuários com a plataforma. “Uma pesquisa de um grupo do MIT [Instituto de Tecnologia de Massachusetts] publicada na revista científica Science mostra que os medos, as raivas as emoções mais extremas são fatores-chave na disseminação de tweets com falsidades”, destaca.

Da mesma maneira que o algoritmo aprende as músicas e os filmes preferidos do usuário, ele também aprende suas preferências políticas, razão pela qual as plataformas de compartilhamento de conteúdo – como o Facebook – transformam-se em bolhas quase intransponíveis de um determinado espectro político. O usuário recebe apenas as informações que corroboram suas opiniões prévias.

Foi para estudar esse fenômeno – inspirado pelo livro O filtro invisível (Zahar, 2012), do ativista político norte-americano Eli Pariser – que o cientista da computação norte-americano Christo Wilson, da Northeastern University, dos Estados Unidos, entrou no campo das redes sociais, em 2012. “Minhas pesquisas focavam, originalmente, o estudo da personalização dos algoritmos utilizados pelos mecanismos de busca, e desde então tenho expandido para outros tipos de algoritmos e contextos”, disse o pesquisador para Pesquisa FAPESP.

Atualmente em período sabático no Centro Berkman Klein para Internet e Sociedade, da Universidade Harvard, Estados Unidos, onde Almeida atua como professor-associado, Wilson tem acompanhado com interesse os achados dos pesquisadores mineiros. “Gosto muito dos estudos de Virgílio Almeida, Wagner Meira e Fabrício Benevenuto; eles fazem um trabalho incrível nas mídias sociais.” Em 2020, Wilson também pretende se voltar ao campo da política: planeja um grande estudo acerca do impacto das redes sociais nas próximas eleições de seu país. “Vamos monitorar a maioria dos serviços on-line para tentar entender como as pessoas encontram conteúdos e como eles afetam seu comportamento”, adianta.

Léo Ramos Chaves Em meio a uma profusão de vídeos, é difícil fugir de uma visão parcialLéo Ramos Chaves

Discriminação algorítmica
A política é apenas um dos muitos temas que têm estimulado pesquisas do Departamento de Ciência da Computação da UFMG. O viés algorítmico pode ser encontrado onde menos se espera – como, por exemplo, nos serviços de assistentes inteligentes de voz do celular. Uma pesquisa realizada em parceria entre a Universidade de Fortaleza (Unifor) e o grupo da UFMG identificou que a eficiência dos assistentes de voz, como Google e Siri, varia conforme o sotaque e o nível de escolaridade.

A cientista da computação Elizabeth Sucupira Furtado, coordenadora do Laboratório de Estudos dos Usuários e da Qualidade em Uso de Sistemas (Luqs), da Unifor, conduziu um estudo qualitativo, em sessões individuais e presenciais, com dois grupos de voluntários: moradores da capital cearense, entre os quais vários nascidos em outros estados, e estudantes de uma classe noturna de Educação de Jovens e Adultos (EJA). “Percebemos que os usuários nascidos nas regiões Sudeste e Sul eram mais compreendidos pelos softwares de assistentes de voz do que os outros”, revela a pesquisadora.

Erros de pronúncia (cacoépia), gagueira ou repetição de palavras e truncamentos (disfluência) também trouxeram prejuízos ao desempenho dos assistentes robóticos. Segundo a pesquisadora, uma vez que o sistema aprende com usuários que têm mais escolaridade, o treinamento dos assistentes de voz tende a se limitar a falas padronizadas. “É importante que as empresas percebam que existe um público que não está sendo atendido”, alerta Furtado. “Essas pessoas continuam excluídas da inovação tecnológica.”

Nos mecanismos de busca também se ocultam preconceitos. Foi o que demonstrou a cientista da computação Camila Souza Araújo em sua dissertação de mestrado pela UFMG, em 2017. Nos buscadores do Google e do Bing, a pesquisadora procurou pelos termos “mulheres bonitas” e “mulheres feias” e constatou um preconceito indiscutível de raça e idade. As mulheres identificadas como bonitas eram, majoritariamente, brancas e jovens. O viés se reproduziu na maioria dos 28 países onde o buscador Bing está presente e 41 países que utilizam o Google, mesmo os situados no continente africano.

A receita do preconceito
Ao utilizar sistemas de aprendizagem de máquina, a sociedade corre o risco de perpetuar preconceitos inadvertidamente, graças ao senso comum que vê a matemática como neutra. Um engenheiro de dados norte-americano, Fred Benenson, cunhou um termo para definir esse risco: mathwashing. Ele se baseou no greenwashing, o uso de estratégias de marketing pelas empresas para simular preocupação ambiental. Da mesma maneira, a ideia de que os algoritmos sejam neutros também beneficia e isenta de responsabilidade as empresas que os utilizam.

Ocorre que os sistemas de inteligência artificial são alimentados por dados, e quem faz a seleção desses dados são seres humanos – que podem ser movidos por preconceitos de forma inconsciente ou intencional. Um exemplo disso foi explicitado por um estudo publicado em outubro na revista Science, liderado por um pesquisador da Faculdade de Saúde Pública da Universidade da Califórnia em Berkeley, nos Estados Unidos. Em um grande hospital daquele país, o grupo norte-americano verificou que o algoritmo responsável por classificar os pacientes mais necessitados de acompanhamento – por estarem em maior risco – privilegiava brancos em detrimento de negros. Isso acontecia porque o sistema se baseava nos pagamentos aos planos de saúde, que são maiores no caso de pessoas que têm mais acesso a atendimento médico, e não na probabilidade de cada um ter doenças graves ou crônicas.

Controle e responsabilidade
Proteger a sociedade da desinformação e do preconceito disseminados pela inteligência artificial é um desafio que poderia contar com a ajuda da tecnologia: a própria inteligência artificial pode oferecer formas de prevenção e controle.

Já existem, por exemplo, avanços na identificação das notícias falsas, mais conhecidas como fake news. Em outubro de 2018, um grupo de pesquisadores da Universidade de São Paulo (USP) e da Universidade Federal de São Carlos (UFSCar) lançou a versão piloto de uma ferramenta digital com esse objetivo. Ela está disponível, gratuitamente, via web ou WhatsApp. Basta submeter a notícia suspeita ao sistema de verificação. Ao constatar indícios de falsidade, o sistema responde: “Essa notícia pode ser falsa. Por favor, procure outras fontes confiáveis antes de divulgá-la”.

Segundo os autores do estudo, por enquanto o sistema consegue identificar, com precisão de até 90%, notícias que são totalmente falsas ou totalmente verdadeiras. Para separá-las, são usados parâmetros como o número de verbos, substantivos, adjetivos, advérbios, pronomes e, sobretudo, erros ortográficos presentes nos textos.

Na Universidade Estadual de Campinas (Unicamp), um grupo liderado pelo cientista da computação Anderson Rocha, diretor do Instituto de Computação, tem se dedicado a desenvolver mecanismos de identificação de informações falsas veiculadas em fotos e vídeos. “Utilizamos técnicas de IA para comparar as informações que estão em determinado texto com comentários e possíveis imagens. Ao verificarmos esses três grupos de informação, apontamos a possibilidade de discrepância que pode levar à identificação de notícia falsa”, diz Rocha.

Os pesquisadores da Unicamp também se dedicam à identificação das falsificações incrivelmente realistas de áudio e vídeo, conhecidas como deep fakes, e ao estudo da autoria de textos postados em rede social, por meio de uma técnica que avalia o estilo de escrita do autor – a estilometria. Outra frente de pesquisa do grupo é a filogenia digital: “Buscamos o processo de evolução de um determinado objeto digital – imagem, vídeo ou texto – que sofre alterações sucessivas em sua versão original”, explica Rocha. O objetivo é identificar como determinada notícia postada em rede social vai sendo modificada ao longo do tempo por diferentes pessoas que adicionam ou removem elementos. “Dificilmente teremos uma única solução, global e genérica, para o combate às fake news, mas desenvolvemos ferramentas pontuais que vão enfrentando caso a caso. Para que conseguíssemos um salto que nos permitisse disponibilizar ferramentas de controle para a sociedade, precisaríamos ter investimento do setor privado tentando trazer esse conhecimento gerado na academia e transformar em produto”, opina o pesquisador.

Do setor privado também se espera maior transparência no desenvolvimento das ferramentas tecnológicas. O termo “responsabilidade algorítmica” tem sido cada vez mais utilizado nos debates sobre o uso da IA. Segundo o advogado Rafael Zanatta, especialista em direito digital e pesquisador do grupo de Ética, Tecnologia e Economia Digitais da USP, ainda não existem leis específicas relacionadas aos aspectos discriminatórios de algoritmos, mas já há iniciativas nesse sentido. Nos Estados Unidos, foi apresentado um projeto de lei denominado Algorithmic Accountability Act. Se ele for aprovado, as empresas terão que avaliar se os algoritmos que alimentam os sistemas de IA são tendenciosos ou discriminatórios, bem como se representam um risco de privacidade ou segurança para os consumidores. “Essa lei segue um pouco da lógica da legislação ambiental, é uma espécie de avaliação de impacto da ferramenta tecnológica”, compara Zanatta.

Em abril deste ano, a União Europeia divulgou uma série de diretrizes éticas para o uso da inteligência artificial. Entre elas, o estabelecimento de medidas que responsabilizem as empresas pelas consequências sociais da utilização da IA e a possibilidade de intervenção e supervisão humanas no funcionamento do sistema.

No Brasil, também se tentou introduzir uma lei prevendo a revisão humana de decisões automatizadas. Um cidadão que se sentisse prejudicado por uma decisão mediada por algoritmos – na concessão de um empréstimo, por exemplo – poderia requerer um revisor para esclarecer os critérios utilizados para a decisão. No entanto, o projeto foi vetado em julho de 2019 pela Presidência da República, sensível ao argumento das empresas de que a revisão humana acarretaria custos adicionais.

Léo Ramos Chaves Pesquisas sobre mulheres bonitas revelam uma visão racistaLéo Ramos Chaves

Educação antiviés
Para Virgílio Almeida, a proteção contra o uso tendencioso da IA começa na educação. Ele destaca como exemplo a iniciativa de escolas da Finlândia que estimulam as crianças a desenvolverem espírito crítico e identificarem notícias falsas na web. Não basta, claro, educar o usuário, é preciso educar também o programador. “Para evitar o viés, uma das maneiras é dispor de dados mais diversos para treinar o algoritmo”, lembra o professor.

A estudante de graduação Bruna Thalenberg, uma das fundadoras do Tecs – Grupo de Comput{ação Social}, do Instituto de Matemática e Estatística (IME) da USP, concorda: “O mundo está em constante mudança, os algoritmos não deveriam repetir o passado”. Fundado em 2017 como uma equipe de extensão, o Tecs nasceu do diálogo de estudantes da USP com o colega brasileiro Lawrence Muratta, que fazia ciência da computação na Universidade Stanford, nos Estados Unidos, onde já havia um grupo discutindo a questão do viés.

“Sentíamos que o curso de ciência da computação estava muito afastado da sociedade”, conta o ex-aluno Luiz Fernando Galati, que hoje trabalha no Centro de Ensino e Pesquisa em Inovação da Fundação Getulio Vargas. Ele conta que o objetivo inicial do grupo era promover palestras e debates, mas eles acabaram propondo a inclusão de um novo curso na grade curricular, o que foi feito. “As palestras que promovemos são oferecidas hoje na disciplina direito e software, sob a supervisão dos professores Daniel Macedo Batista e Fabio Kon.” O Tecs também participa da TechShift Alliance, que reúne 20 organizações de alunos universitários das Américas do Norte, do Sul e da Ásia, dispostos a debater as questões sociais ligadas à inteligência artificial. Os grupos se reúnem em um evento anual, chamado TechShift Summit.

Como seu próprio nome indica, além da reflexão, o grupo tem o propósito de se dedicar à ação, por meio de projetos que permitam a grupos marginalizados o acesso ao universo digital. Um desses projetos é o ensino de lógica de programação para alunos do Centro de Atendimento Socioeducativo ao Adolescente, a Fundação Casa. “O projeto surgiu de um contato entre uma integrante do Tecs e o Projeto Primeiro Livro, que fazia ações em unidades da Fundação Casa e em escolas públicas. A primeira turma do curso iniciou no segundo semestre de 2018”, conta a estudante Jeniffer Martins da Silva, educadora do projeto. Desde sua criação, mais de 40 jovens já passaram pelo curso.

Para os integrantes do Tecs, não são apenas os grupos atendidos pelo projeto que podem se beneficiar com os cursos, mas a área da ciência da computação como um todo. “Qualquer equipe com mais diversidade tem melhor desempenho. Mais riqueza de perspectivas leva a melhores e mais inovadoras soluções para os desafios que precisarem superar”, conclui Silva.

A edição impressa de janeiro de 2020 traz uma versão resumida desta reportagem.

Projeto
Déjà vu: Coerência temporal, espacial e de caracterização de dados heterogêneos para análise e interpretação de integridade (nº 17/12646-3); Modalidade Projeto Temático; Pesquisador responsável Anderson de Rezende Rocha (Unicamp); Investimento R$ 1.385.219,47.

Artigos científicos
RIBEIRO, M. H. et al. Auditing radicalization pathways on YouTube. arXiv. 22 ago. 2019.
CAETANO, J. A. et al. Characterizing attention cascades in WhatsApp groups. Proceedings of the 10th ACM Conference on Web Science. p. 27-36. 26 jun. 2019.
CAETANO, J. A. et al. Analyzing and characterizing political discussions in WhatsApp public groups. arXiv. 2 abr. 2018.
OTTONI, R. et al. Analyzing right-wing YouTube channels: Hate, violence and discrimination. Proceedings of the 10th ACM Conference on Web Science. p. 323-332. 15 mai. 2018.
RIBEIRO, M. H. et al. Characterizing and detecting hateful users on Twitter. Twelfth International AAAI Conference on Web and Social Media. 15 jun. 2018.
ARAUJO, C. et al. Identifying stereotypes in the online perception of physical attractiveness. International Conference on Social Informatics. p. 419-37. 23 out. 2016.
LANNA, L. et al. Discrimination analysis of intelligent voice assistants. 18th Brazilian Symposium on Human Factors in Computing Systems. October 22-25, 2019.

Livro
PARISER, E. O filtro invisível – O que a internet está escondendo de você. Editora Zahar, 2012, 252 p.

Republicar