Um algoritmo para avaliar a credibilidade de pesquisas : Revista Pesquisa Fapesp

O departamento de Defesa (DoD) dos Estados Unidos investirá US$ 7,6 milhões no desenvolvimento de um sistema de inteligência artificial capaz de avaliar a credibilidade de estudos em ciências sociais e do comportamento. Batizado de Score, sigla para Sistematizando a Confiança em Evidências e em Pesquisa Aberta, o programa vai durar três anos. O objetivo do Pentágono é criar uma ferramenta automatizada que atribua uma pontuação a resultados de pesquisas em disciplinas como psicologia, antropologia e sociologia, de acordo com o grau estimado de confiança. A classificação busca orientar usuários de informações científicas sobre o nível de incerteza das conclusões apresentadas.

Segundo o antropólogo Adam Russell, coordenador da iniciativa, o Pentágono com frequência aproveita evidências coletadas por cientistas sociais e psicólogos para desenhar planos relacionados a desafios de segurança nacional, construir modelos envolvendo sistemas sociais humanos e orientar investimentos. “No entanto, trabalhos empíricos recentes e meta-análises mostram que a capacidade de reproduzir ou replicar esses resultados de forma independente varia de forma dramática”, escreveu Russell, que é gerente de programas da Darpa, a agência de pesquisa do Pentágono. Ele se refere à chamada “crise da reprodutibilidade”, uma sucessão de casos de artigos científicos, sobretudo em áreas como medicina, ciências da vida e psicologia, que caíram em descrédito porque seus resultados não foram confirmados em experimentos subsequentes. Um dos escândalos envolveu Diederick Stapel, professor de psicologia social da Universidade de Tilburg, na Holanda, que teve 30 artigos retratados por manipulação de dados (ver Pesquisa FAPESP nº 190). Há três anos, uma colaboração internacional para investigar estudos de psicologia experimental só conseguiu reproduzir resultados obtidos em 36 dos 100 artigos avaliados.

O objetivo não é substituir o homem pela máquina, mas combinar o trabalho dos dois, diz o antropólogo Adam Russell

No mês passado, a Darpa anunciou que o programa terá como parceiro o Centro para Ciência Aberta (COS), organização não governamental vinculada à Universidade de Virgínia que tem experiência em replicação de experimentos científicos. O COS tornou-se conhecido por liderar, entre 2013 e 2018, a Iniciativa de Reprodutibilidade, um esforço para avaliar se 50 potenciais medicamentos contra câncer descritos em artigos científicos tinham mesmo chance de chegar às farmácias. “Avaliações sobre a credibilidade de pesquisa podem ajudar cientistas a selecionar objetos de investigação, agências a tomar decisões sobre o que financiar e formuladores de políticas públicas a selecionar as melhores evidências”, disse o biólogo Tim Errington, pesquisador do COS.

O programa Score será dividido em quatro fases. Primeiro, será montado um banco de dados com resultados de cerca de 30 mil artigos científicos, abastecido também com evidências extraídas dos próprios papers e informações de outras fontes, como o número de citações recebidas por cada trabalho, se seus dados primários estão disponíveis publicamente e se a pesquisa foi pré-registrada – uma garantia de que não houve alteração da hipótese a ser testada durante o curso do experimento. Essa etapa terá a colaboração de pesquisadores das universidades de Siracusa e da Pensilvânia. Em seguida, 3 mil desses artigos serão selecionados e especialistas se debruçarão sobre eles, atribuindo a cada um uma pontuação sobre a possibilidade aparente de terem os resultados replicados.

Nelson ProvaziA ideia é prestar atenção especial em parâmetros que se relacionam com a qualidade dos resultados, como o tamanho de amostras, eventual conflito de interesses, reputação do autor e de sua instituição, entre outros. Depois, os procedimentos usados pelos especialistas para dar pontos a cada artigo serão analisados por cientistas da computação e servirão como base para a construção de algoritmos que reproduzam de forma automática o método adotado. Por fim, times de pesquisadores tentarão refazer os experimentos dos 3 mil artigos a fim de avaliar se o algoritmo é mesmo capaz de predizer se são ou não replicáveis. “A proposta não é substituir homens por máquinas, mas encontrar a melhor maneira de combinar o trabalho dos dois”, disse Russell à revista Nature.

Há, naturalmente, o risco de fracasso. A Iniciativa de Reprodutibilidade, liderada pelo COS, mobilizou dezenas de times de cientistas e acabou gerando frutos restritos. Dificuldades para conseguir reunir condições apropriadas fizeram com que o programa se encerrasse depois de analisar menos da metade dos 50 estudos previstos. Ainda assim, de uma leva inicial de 10 estudos avaliados, apenas cinco foram considerados fidedignos – os demais chegaram a resultados inconclusos ou negativos. Adam Russell, o coordenador do Score, tem experiência em projetos com esse tipo de complexidade. Antes de trabalhar no DoD, gerenciou programas na Iarpa, agência vinculada ao escritório do diretor nacional de inteligência dos Estados Unidos especializada em projetos de alto risco envolvendo inovações. O órgão financia pesquisas em empresas e universidades envolvendo especialistas em matemática, ciência da computação, neurociência, psicologia cognitiva, entre outras.

Para o psicólogo Brian Nosek, professor da Universidade de Virgínia e líder do COS, existe a chance de que o esforço dê errado e o programa falhe em fornecer uma visão fiel sobre a credibilidade de pesquisas, caso não consiga criar um banco de dados robusto ou realizar experimentos de reprodução de alta qualidade. Mas ele considera que o risco vale a pena. “Qualquer que seja o resultado, vamos aprender muito sobre os processos da ciência e como melhorá-los.”

Republicar