Encontros às cegas : Revista Pesquisa Fapesp

Um estudo publicado na revista Scientific Reports apresentou um método para identificar trabalhos produzidos por fábricas de papers – serviços fraudulentos que vendem manuscritos científicos, frequentemente gerados por programas de inteligência artificial e baseados em dados fabricados, e os submetem a periódicos em nome dos clientes. Em vez de procurar pistas de plágio ou imagens manipuladas, que são os traços mais comuns dos artigos falsificados, o modelo se debruça principalmente sobre características da relação de autores, cuja combinação atípica pode indicar uma origem espúria.

A premissa principal é que, como pesquisadores pagam para terem seus nomes incluídos nos estudos falsificados, isso acaba gerando parcerias improváveis e de padrão muito diferente das que são estabelecidas no mundo real, tais como as que unem jovens pesquisadores e seus ex-orientadores e supervisores ou as ramificações de colaborações consagradas. A nova abordagem rastreia uma série de atributos incomuns ou suspeitos dos autores: se eles são muito jovens e ao mesmo tempo altamente produtivos (mais de 20 trabalhos publicados em um ano); se não estão conectados a pesquisadores seniores e tendem a colaborar com outros pesquisadores jovens; se participam de redes que se formam aleatoriamente e logo se desfazem. Também é comum que os artigos fabricados tenham uma lista de assinaturas maior do que a média dos de sua área disciplinar – porque os lucros dos serviços trapaceiros crescem à medida que eles conseguem vender um mesmo paper para múltiplos clientes.

Impressões digitais de fraude complementares podem ser encontradas em referências bibliográficas (há uma tendência de artigos falsos, por terem conteúdo de baixa qualidade ou repetitivo, citarem outras contrafações em vez de apelarem à literatura consagrada) e no perfil das revistas escolhidas para publicação (periódicos com um corpo de revisores qualificado ou que fazem revisão por pares aberta, na qual a análise dos avaliadores é pública, são mais difíceis de enganar ou de cooptar).

Os resultados obtidos pelo modelo, que analisou trabalhos indexados na base de dados Dimensions, foram comparados com os de outras formas de rastrear a atividade de fábricas de papers. Pesquisadores de perfil suspeito detectados pelo novo método apareciam em 7,43% dos 1.858 artigos listados entre 2020 e 2022 no banco de dados do Retraction Watch, um site que compila publicações que sofreram retratação, ou seja, que foram invalidadas, por diferentes motivos – ter origem em uma fábrica de papers é um deles.

Constatou-se, também, que estudos vinculados a redes de autores suspeitas estavam ligados a 37% dos artigos apontados como fraudulentos pelo Rastreador de Papers Problemáticos (Problematic Paper Screener), uma ferramenta lançada em 2022 que identifica as chamadas “frases torturadas”, expressões mal traduzidas que evidenciam o uso de programas de inteligência artificial – os textos são submetidos a múltiplas traduções a fim de reduzir a similaridade do conteúdo, em uma tentativa de burlar sistemas de detecção de plágio. O problema é que podem se tornar incompreensíveis: o termo big data, por exemplo, consagrado para denominar a utilização de grandes volumes de dados, dava lugar à expressão sem sentido colossal information (informações colossais). A ferramenta foi criada por um grupo liderado pelo cientista da computação francês Guillaume Cabanac, da Universidade de Toulouse (ver Pesquisa FAPESP nº 317).

A convergência entre os resultados do novo modelo e os do Rastreador de Papers Problemáticos variou de país para país. Dos 345 artigos de pesquisadores da Arábia Saudita que continham frases torturadas, 317 (ou 92% do total) também foram sinalizados como anômalos pelo novo método. A coincidência foi de 74% em trabalhos de pesquisadores do Irã, de 44% no caso dos Estados Unidos e de 25% no da China. Em números absolutos, o destaque foi a Índia, com 773 estudos com redes de autores anômalas, 46% dos 1.666 com expressões distorcidas, identificados por Cabanac.

Em 2022, o Committee on Publication Ethics, um fórum de editores científicos dedicado a questões de integridade, estimou que 2% dos artigos submetidos para publicação sejam gerados por fábricas de papers. De acordo com os responsáveis pelo modelo, o cientista da informação Simon Porter e a epidemiologista Leslie McIntosh, algumas editoras se mostraram mais expostas a manuscritos fraudulentos. A Hindawi, braço da editora Wiley cujas revistas amargaram 8 mil retratações em 2023 por fraude na revisão por pares, é a que apresentou um maior perfil de risco: em 2022, 4% de sua produção publicada estava associada a fábricas de papers. Depois do escândalo, a Wiley abandonou a marca Hindawi e incorporou todos os seus títulos. A editora MDPI também teve sua produção bastante afetada, com um índice de 3% de artigos fabricados.

Porter e McIntosh são vice-presidentes da empresa de tecnologia Digital Science, que é ligada ao grupo Springer Nature. Segundo eles, o problema parece estar se tornando mais prevalente. “A partir de 2018, há uma transição no comportamento que dobra a ocorrência relativa de pesquisadores de perfil incomum em um período de quatro anos”, escreveram. Há modos de as fábricas da papers tentarem escamotear as impressões digitais das fraudes. Algumas já adicionaram nomes de pesquisadores consagrados, sem que eles tenham conhecimento, na lista de autores de artigos, para forjar uma aparência respeitável à rede de colaboradores – mas o risco de que o truque seja descoberto, com a identificação do estudo fabricado e a revelação do esquema, não é desprezível. Outro recurso, de acordo com a dupla de pesquisadores, é cooptar financeiramente cientistas com carreiras modestas para que assinem os artigos comercializados, dando a eles uma feição menos suspeita, mas isso gera custos adicionais para os serviços fraudulentos.

A disseminação de ferramentas de inteligência artificial promete tornar as fraudes mais sofisticadas e difíceis de detectar apenas com base na análise de textos e dos gráficos. Daí a importância do novo método, que ajudaria a rastrear uma classe mais ampla de artigos com perfis atípicos. “Ao compreender as abordagens tecnológicas adotadas pelas fábricas de papers, assim como as estruturas sociais que elas necessitam para operar, a comunidade científica pode desenvolver estratégias que tornem essa operação difícil ou, idealmente, impossível”, escreveram os autores.

Republicar