Algoritmos parciais : Revista Pesquisa Fapesp

Boa parte dos algoritmos de inteligência artificial (IA) é desenvolvida para identificar padrões de modo a automatizar decisões e facilitar a vida das pessoas. Essa tecnologia pode reconhecer o estilo de música preferida do usuário, o gênero de filmes que lhe interessa ou os assuntos que mais busca no jornal. No entanto, por serem programados para captar modelos de comportamento, os algoritmos também podem replicar comportamentos indesejáveis, como o racismo, a misoginia e a homofobia. Absorvem, reproduzem e, como resultado, robustecem a discriminação e a intolerância vistas na sociedade nas mais variadas formas.

Em agosto de 2019, um estudo realizado por pesquisadores da Universidade Federal de Minas Gerais (UFMG) apresentou um exemplo desse círculo vicioso que repercutiu em diversas publicações da imprensa internacional: um processo de radicalização política no YouTube no contexto norte-americano, onde o algoritmo de recomendação tem um importante papel. “Já havia pesquisas qualitativas e reportagens que mostravam o YouTube como um terreno fértil para a proliferação de comunidades obscuras vinculadas à chamada alt-right [direita alternativa] norte-americana, cujas ideias são intimamente relacionadas à supremacia branca”, diz o cientista da computação Manoel Horta Ribeiro, atualmente doutorando na Escola Politécnica Federal de Lausanne (EPFL), na Suíça. No mestrado realizado na UFMG, sob orientação dos cientistas da computação Wagner Meira Jr. e Virgílio Almeida, ele queria entender como esse fenômeno acontecia.

O grupo vasculhou 331.849 vídeos de 360 canais de diferentes orientações políticas e rastreou 79 milhões de comentários. Um volume imenso de dados, tratável justamente graças a recursos de inteligência artificial. “O único trabalho manual foi a classificação dos canais conforme a orientação política”, diz Ribeiro. Os resultados revelaram que os canais supremacistas brancos são beneficiados pela migração de apreciadores de canais politicamente conservadores de conteúdo menos radical.

“Rastreamos a trajetória dos usuários que comentavam vídeos de canais conservadores e descobrimos que, com o passar do tempo, eles falavam sobre vídeos dos canais mais radicais. Havia uma migração consistente dos conteúdos mais leves para os mais extremos, mas não sabemos exatamente como isso ocorre”, explica Ribeiro. “Creio que três razões contribuem para o fenômeno: o formato da mídia, na qual todos podem criar conteúdo e na qual os espectadores interagem muito diretamente com os criadores; o atual cenário político mundial; e o algoritmo, que permite que usuários encontrem ou continuem a consumir conteúdo extremista por meio do sistema de recomendação.” As pesquisas envolvendo o YouTube vêm se tornando mais relevantes nos últimos anos.

Segundo Virgílio Almeida, professor emérito do Departamento de Ciência da Computação da UFMG, a plataforma de vídeos já se mostrou muito interessante para a ciência. “O número de usuários é enorme – mais de 2 bilhões no mundo e 70 milhões no Brasil –, assim como seu impacto na sociedade”, diz o pesquisador. Seu departamento se tornou um celeiro de pesquisas sobre o fenômeno das redes sociais.

Almeida começou a se dedicar a esse campo de pesquisa em 2007. Os estudos que tiveram maior repercussão vieram do campo político – polarizado tanto nos Estados Unidos quanto no Brasil. Em 2018, uma análise de discurso de ódio e discriminação em vídeos postados no YouTube por grupos de direita norte-americanos teve destaque na International ACM Conference on Web Science, na Holanda. O trabalho foi reconhecido como o melhor feito por estudantes: os alunos de doutorado Raphael Ottoni, Evandro Cunha, Gabriel Magno e Pedro Bernardina – todos do grupo de Wagner Meira Jr. e Virgílio Almeida.

Jose Luis Magana / AFP / Getty Images Supremacistas brancos nos Estados Unidos: canais no YouTube desses grupos recebem apoio de internautas conservadores menos radicais, apontam pesquisadoresJose Luis Magana / AFP / Getty Images

Para investigar as falas transcritas dos youtubers e os comentários postados nos vídeos, os pesquisadores da UFMG utilizaram as ferramentas Linguistic Inquiry Word Count (LIWC) e Latent Dirichlet Allocation (LDA). O LIWC permite a classificação de palavras em categorias correspondentes à estrutura das frases (pronomes, verbos, advérbios etc.) e ao conteúdo emocional (se expressam alegria, tristeza, raiva etc.). O LDA busca palavras que possam definir os principais tópicos de uma conversa.

“Utilizamos também uma ferramenta baseada em um teste psicológico para observar o viés dessas postagens”, explica Raphael Ottoni. Essa ferramenta se baseia na comparação das distâncias entre palavras situadas em um mesmo contexto, com a finalidade de estabelecer associações. Isso é feito por meio de técnicas de aprendizado de máquina que convertem palavras de um texto em vetores de números; estes, por sua vez, são usados para calcular a similaridade semântica das palavras. Em um determinado assunto, palavras que se situam mais próximas tendem a estabelecer entre si uma associação de significado. “Palavras como cristianismo apareciam no texto associadas com atributos de valor positivo, como bom ou honesto, enquanto islamismo era frequentemente relacionada a terrorismo e morte”, exemplifica Ottoni.

Essas técnicas foram aplicadas à conjuntura brasileira. Os pesquisadores estudaram vídeos publicados no YouTube durante o período de eleições presidenciais de 2018, em 55 canais identificados com posições políticas desde a extrema esquerda até a extrema direita. Mensagens de ódio e teorias conspiratórias foram identificadas com mais frequência nos canais de extrema direita – e foram esses que tiveram maior crescimento no número de visualizações. Os pesquisadores estão agora finalizando um artigo em que apresentarão os resultados dessa análise. Mas, antes mesmo da publicação, o estudo foi citado em agosto de 2019 por uma reportagem do jornal The New York Times, que fez uma série sobre a influência do YouTube em diferentes países, com destaque para o Brasil.

Segundo Almeida, outras pesquisas já constataram que os algoritmos de recomendação de notícias e vídeos acabam se valendo da atração humana por notícias negativas e teorias conspiratórias para aumentar o engajamento dos usuários com a plataforma. “Uma pesquisa de um grupo do MIT [Instituto de Tecnologia de Massachusetts] publicada na revista Science, em março de 2019, mostrou que os medos, as raivas e as emoções mais extremas são fatores-chave na disseminação de tweets com falsidades”, destaca.

Da mesma maneira que o algoritmo assimila as músicas e os filmes preferidos do usuário, ele também capta suas preferências políticas, razão pela qual as plataformas de compartilhamento de conteúdo – como o Facebook – se transformam em bolhas quase intransponíveis de um determinado espectro político. O usuário recebe apenas as informações que corroboram suas opiniões prévias.

Foi para estudar esse fenômeno – inspirado pelo livro O filtro invisível (Zahar, 2012), do ativista norte-americano Eli Pariser – que o cientista da computação norte-americano Christo Wilson, da Northeastern University, em Massachusetts, Estados Unidos, entrou no campo das redes sociais, em 2012. “Minhas pesquisas focavam, originalmente, o estudo da personalização dos algoritmos utilizados pelos mecanismos de busca, e desde então tenho expandido para outros tipos de algoritmos e contextos”, disse o pesquisador para Pesquisa FAPESP. Wilson pretende se voltar ao campo da política em 2020: planeja um grande estudo acerca do impacto das redes sociais nas próximas eleições de seu país.

Cris Faga / Fox Press Photo / Folhapress Manifestação durante a última campanha presidencial no país: pesquisadores estudaram vídeos publicados durante a disputa eleitoralCris Faga / Fox Press Photo / Folhapress

Discriminação algorítmica
O viés algorítmico pode ser encontrado onde menos se espera – como, por exemplo, nos serviços de assistentes inteligentes de voz do celular. Uma pesquisa realizada em parceria entre a Universidade de Fortaleza (Unifor) e o grupo da UFMG identificou que a eficiência dos assistentes de voz, como Siri, da Apple, e Google, varia conforme o sotaque e o nível de escolaridade. A cientista da computação Elizabeth Sucupira Furtado, coordenadora do Laboratório de Estudos dos Usuários e da Qualidade em Uso de Sistemas da Unifor, conduziu um estudo com dois grupos de voluntários: moradores da capital cearense, entre os quais vários nascidos em outros estados, e estudantes de uma classe noturna de Educação de Jovens e Adultos. “Os usuários nascidos nas regiões Sudeste e Sul eram mais compreendidos pelos softwares de assistentes de voz do que os demais”, revela a pesquisadora.

Erros de pronúncia (cacoépia), gagueira ou repetição de palavras e truncamentos (disfluência) também prejudicaram o desempenho dos assistentes robóticos. Segundo a pesquisadora, uma vez que o sistema aprende com usuários que têm mais escolaridade, o treinamento dos assistentes de voz tende a se limitar a falas padronizadas. “É importante que as empresas percebam que existe um público que não está sendo atendido”, alerta Furtado.

Nos mecanismos de busca também se ocultam preconceitos. Foi o que demonstrou a cientista da computação Camila Souza Araújo em sua dissertação de mestrado pela UFMG, em 2017. Nos buscadores do Google e do Bing, a pesquisadora procurou pelos termos “mulheres bonitas” e “mulheres feias” e constatou um preconceito de raça e idade. As mulheres identificadas como bonitas eram, majoritariamente, brancas e jovens. O viés se reproduziu na maioria dos 28 países onde o buscador Bing está presente e 41 países que utilizam o Google, mesmo os situados no continente africano.

Ao utilizar sistemas de aprendizagem de máquina, a sociedade corre o risco de perpetuar preconceitos inadvertidamente, graças ao senso comum que vê a matemática como neutra. O engenheiro de dados norte-americano Fred Benenson cunhou um termo para definir esse risco: mathwashing. Ele se baseou no greenwashing, o uso de estratégias de marketing pelas empresas para simular preocupação ambiental. Da mesma maneira, a ideia de que os algoritmos sejam neutros também beneficia e isenta de responsabilidade quem os utiliza.

Ocorre que os sistemas de inteligência artificial são alimentados por dados, e quem faz a seleção desses dados são seres humanos – que podem ser movidos por preconceitos de forma inconsciente ou intencional. Um exemplo disso foi explicitado por um estudo publicado em outubro na revista Science, liderado por um cientista da Universidade da Califórnia em Berkeley, nos Estados Unidos. Em um hospital daquele país, os pesquisadores verificaram que o algoritmo responsável por classificar os pacientes mais necessitados de acompanhamento – por estarem em maior risco – privilegiava brancos em detrimento de negros. Isso acontecia porque o sistema se baseava nos pagamentos aos planos de saúde, que são maiores no caso de pessoas que têm mais acesso a atendimento médico, e não na probabilidade de cada um ter doenças graves ou crônicas. Essa situação evidencia que a construção do algoritmo pode ser responsável pelo preconceito embutido nos resultados.

Pedro Ladeira / Folhapress Na sessão da CPI mista das fake news no Congresso esteve em pauta a proliferação de notícias falsas nas eleições de 2018Pedro Ladeira / Folhapress

Educação Antiviés
Proteger a sociedade da desinformação e do preconceito disseminados pela inteligência artificial é um desafio que pode começar a ser superado pela educação. Virgílio Almeida destaca como exemplo a iniciativa de escolas da Finlândia que estimulam as crianças a desenvolverem espírito crítico e identificarem notícias falsas na web, as chamadas fake news. Não basta, claro, educar o usuário, é preciso educar também o programador. “Para evitar o viés, uma das maneiras é dispor de dados mais diversos para treinar o algoritmo”, ressalta Almeida.

A estudante de graduação Bruna Thalenberg, uma das fundadoras do Tecs – Grupo de Computação Social, do Instituto de Matemática e Estatística da Universidade de São Paulo (IME-USP), concorda: “O mundo está em constante mudança, os algoritmos não deveriam repetir o passado”. Fundado em 2017 como uma equipe de extensão, o Tecs nasceu do diálogo de estudantes da USP com o colega brasileiro Lawrence Muratta, que fazia ciência da computação na Universidade Stanford, nos Estados Unidos, onde já havia um grupo discutindo a questão do viés.

“Sentíamos que o curso de ciência da computação estava muito afastado da sociedade”, conta o ex-aluno Luiz Fernando Galati, que hoje trabalha no Centro de Ensino e Pesquisa em Inovação da Fundação Getulio Vargas. O objetivo inicial do grupo era promover palestras e debates, mas eles acabaram propondo a inclusão de um novo curso na grade curricular, o que foi feito.

“As palestras que promovemos são oferecidas na disciplina direito e software, sob a supervisão dos professores Daniel Macedo Batista e Fabio Kon”, informa Galati. O Tecs também participa da TechShift Alliance, que reúne 20 organizações de universitários das Américas do Norte, do Sul e da Ásia, dispostos a debater as questões sociais ligadas à inteligência artificial.

Além da reflexão, o Tecs tem o propósito de se dedicar à ação, por meio de projetos que permitam a grupos marginalizados o acesso ao universo digital. Um desses projetos é o ensino de lógica de programação para alunos do Centro de Atendimento Socioeducativo ao Adolescente, a Fundação Casa. “A primeira turma do curso iniciou no segundo semestre de 2018”, informa a estudante Jeniffer Martins da Silva, educadora do projeto. Desde sua criação, mais de 40 jovens já passaram pelo curso.

A própria inteligência artificial também pode oferecer formas de prevenção e controle. Em 2018, pesquisadores da USP e da Universidade Federal de São Carlos (UFSCar) lançaram a versão piloto de uma ferramenta digital com objetivo de identificar fake news. Ela está disponível, gratuitamente, via web ou WhatsApp. Basta submeter a notícia suspeita ao sistema de verificação. Ao constatar indícios de falsidade, o sistema responde: “Essa notícia pode ser falsa. Por favor, procure outras fontes confiáveis antes de divulgá-la”. Segundo os autores do estudo, o sistema identifica com precisão de até 90% notícias que são totalmente falsas ou totalmente verdadeiras.

Na Universidade Estadual de Campinas (Unicamp), um grupo liderado pelo cientista da computação Anderson Rocha, diretor do Instituto de Computação, tem se dedicado a desenvolver mecanismos de identificação de informações falsas veiculadas em fotos e vídeos. “Utilizamos técnicas de IA para comparar as informações que estão em determinado texto com comentários e possíveis imagens. Ao verificarmos esses três grupos de informação, apontamos a possibilidade de discrepância que pode levar à identificação de notícia falsa”, diz Rocha.

Do setor privado se espera, igualmente, maior transparência. O termo “responsabilidade algorítmica” tem sido cada vez mais utilizado nos debates sobre o uso da IA. Segundo o advogado Rafael Zanatta, especialista em direito digital e pesquisador do grupo de Ética, Tecnologia e Economia Digitais da USP, ainda não existem leis específicas relacionadas aos aspectos discriminatórios de algoritmos, mas já há iniciativas nesse sentido. Nos Estados Unidos, foi apresentado um projeto de lei denominado Algorithmic Accountability Act. Se aprovado, as empresas terão que avaliar se os algoritmos que alimentam os sistemas de IA são tendenciosos ou discriminatórios e se representam um risco de privacidade ou segurança para os consumidores.

Em abril de 2019, a União Europeia divulgou diretrizes éticas para o uso da inteligência artificial, entre elas o estabelecimento de medidas que responsabilizem as empresas pelas consequências sociais da utilização da IA e a possibilidade de intervenção e supervisão humanas no funcionamento do sistema.

No Brasil, também se tentou introduzir em 2019 uma lei prevendo a revisão humana de decisões automatizadas. Um cidadão que se sentisse prejudicado por uma decisão mediada por algoritmos – na concessão de um empréstimo, por exemplo – poderia requerer um revisor para esclarecer os critérios utilizados para a decisão. O projeto, no entanto, foi vetado pela Presidência da República, sensível ao argumento das empresas de que a revisão humana acarretaria custos adicionais.

O site da revista Pesquisa FAPESP traz uma versão ampliada desta reportagem.

Projeto
Déjà vu: Coerência temporal, espacial e de caracterização de dados heterogêneos para análise e interpretação de integridade (nº 17/12646-3); Modalidade Projeto Temático; Pesquisador responsável Anderson de Rezende Rocha (Unicamp); Investimento R$ 1.385.219,47.

Artigos científicos
RIBEIRO, M. H. et al. Auditing radicalization pathways on YouTube. arXiv. 22 ago. 2019.
CAETANO, J. A. et al. Characterizing attention cascades in WhatsApp groups. Proceedings of the 10th ACM Conference on Web Science. p. 27-36. 26 jun. 2019.
CAETANO, J. A. et al. Analyzing and characterizing political discussions in WhatsApp public groups. arXiv. 2 abr. 2018.
OTTONI, R. et al. Analyzing right-wing YouTube channels: Hate, violence and discrimination. Proceedings of the 10th ACM Conference on Web Science. p. 323-332. 15 mai. 2018.
RIBEIRO, M. H. et al. Characterizing and detecting hateful users on Twitter. Twelfth International AAAI Conference on Web and Social Media. 15 jun. 2018.
ARAUJO, C. et al. Identifying stereotypes in the online perception of physical attractiveness. International Conference on Social Informatics. p. 419-37. 23 out. 2016.
LANNA, L. et al. Discrimination analysis of intelligent voice assistants. 18th Brazilian Symposium on Human Factors in Computing Systems. October 22-25, 2019.

Republicar