Imprimir Republicar

Boas práticas

O gato que calculava

Biólogo revela vulnerabilidades de métricas acadêmicas ao atribuir estudos falsos e citações manipuladas ao pet de sua família

Arnanzung/Getty Images

Falsos estudos atribuídos a um gato cinza malhado chamado Larry demonstraram a possibilidade – e a facilidade – de manipular certos tipos de indicadores de produtividade científica. O bichano em questão tem como tutora a avó do biólogo computacional Reese Richardson, estudante de doutorado da Universidade Northwestern, nos Estados Unidos, e coordenador de um experimento que, ao imputar a autoria de trabalhos científicos a um felino, evidenciou uma estratégia usada por fraudadores para impulsionar métricas acadêmicas explorando falhas e negligência da rede social ResearchGate e da plataforma Google Scholar.

Em parceria com o especialista em má conduta científica Nick Wise, do Reino Unido, o biólogo criou uma conta no ResearchGate em nome do pet da família, Larry Richardson, supostamente um matemático em início de carreira. “Qualquer pessoa pode criar um perfil no ResearchGate e, se você usar um e-mail acadêmico, nenhuma verificação adicional é necessária”, explicou o biólogo em seu blog pessoal. Ele tomou o cuidado de criar um endereço de correio eletrônico para o gato no servidor da Universidade Northwestern a fim de não levantar suspeitas da plataforma.

Em seguida, a dupla carregou na conta do animal um conjunto de 12 manuscritos que tinham Larry como único autor – na verdade, eram textos sem nenhum sentido que abordavam em seus títulos tópicos como álgebra complexa e estrutura de objetos matemáticos. Paralelamente, foram gerados e publicados no perfil outros 12 manuscritos falsos atribuídos a pesquisadores fictícios, os quais citavam em suas referências bibliográficas os 12 artigos do felino. Como o ResearchGate permite que os pesquisadores divulguem em seus perfis apenas artigos da própria lavra, o nome de Larry também foi incluído no rol dos coautores desses trabalhos.

Os robôs rastreadores do Google visitaram o perfil no ResearchGate e demoraram duas semanas para contabilizar as citações. Assim que isso ocorreu, uma página do matemático Larry Richardson foi criada automaticamente no Google Scholar e passou a exibir 11 artigos e 132 citações (um dos textos, por alguma razão, escapou da varredura), conferindo ao gato um índice-h 11. O índice-h é uma métrica consagrada na comunidade científica que calcula ao mesmo tempo o tamanho da produção de um pesquisador e o interesse que ela despertou. Um índice-h 11 significa que um autor publicou na carreira ao menos 11 artigos que foram mencionados, cada um deles, no mínimo 11 vezes em outros papers.

Richardson teve a ideia de fazer o experimento quando foi alertado por Nick Wise sobre a existência de anúncios no Facebook sobre serviços fraudulentos que prometiam aumentar o número de citações e o índice-h no Google Scholar. Uma dessas propagandas trazia o exemplo de 18 clientes, mostrando capturas de tela de suas páginas no Google Scholar “antes e depois” da compra de citações. A grande maioria era de matemáticos da Índia, mas também havia um de Omã e outro dos Estados Unidos. Cada citação custava US$ 10, o equivalente a R$ 55, e os clientes expostos haviam encomendado entre 50 e 500 citações cada um.

Em algumas situações, foi possível observar que as referências estavam em artigos de um periódico suspeito de práticas predatórias – a hipótese é de que a empresa que vende citações tenha feito um conluio com essa revista, a fim publicar papers com referências viciadas. Mas a maior parte dos casos seguia uma estratégia abertamente fraudulenta. Os manuscritos com as citações eram assinados por nomes como o filósofo e matemático Pitágoras (570-495 a.C.) ou o matemático russo Andrei Kolmogorov (1903-1987). Embora os títulos e resumos parecessem consistentes, o restante não fazia sentido. Richardson e Wise observaram que esses trabalhos haviam sido produzidos por um software, o MathGen, que combina sequências de palavras e fórmulas extraídas de papers genuínos compondo textos que, no entanto, são disparatados.

Os estudos falsos haviam sido divulgados exclusivamente em perfis na rede social ResearchGate, sem passarem por nenhum tipo de avaliação por pares ou ao menos serem disponibilizados em repositórios de preprints, onde teriam a chance de ser escrutinados por outros especialistas. Assim que o Google Scholar computava os artigos e as citações na página do autor, os manuscritos eram removidos do ResearchGate para apagar as evidências. Só foi possível encontrar alguns deles no cache do Google. “Apesar das vulnerabilidades do Google Scholar e do ResearchGate, as métricas quantitativas calculadas por esses serviços são rotineiramente usadas para avaliar cientistas,” disse Richardson.

É certo que esse tipo de fraude só funciona para as métricas do Google Scholar, que faz um rastreamento exaustivo da literatura acadêmica disponível na internet e considera versões de trabalhos científicos publicados em perfis pessoais de pesquisadores. Já bases de dados como a Web of Science, da Clarivate Analytics, e a Scopus, da editora Elsevier, trabalham com artigos de revistas científicas indexadas e não são vulneráveis a trapaças como essa.

Encerrado o experimento, o caso foi denunciado no blog de Richardson, em uma postagem intitulada “Criando o gato mais citado do mundo, Larry”. A ideia de usar um felino como autor não foi ocasional. Richardson lembrara-se do caso do físico teórico Jack Hetherington, que, em 1975, publicou dois artigos e um capítulo de livro em parceria com um certo F. D. C. Willard. As iniciais eram de “Felis Domesticus Chester Willard”, o gato siamês do pesquisador. Como os trabalhos de Hetherington e seu bicho de estimação tiveram 107 citações, a meta era fazer com que Larry suplantasse essa marca. Mas o feito do gato malhado durou só uma semana. Alertado da fraude, o Google Scholar deletou os artigos, embora mantenha a página em nome de Larry Richardson.

Outros pesquisadores já haviam detectado sinais desse tipo de contrafação. Em fevereiro, os cientistas da computação Talal Rahwan e Yasir Zaki analisaram mais de 1 milhão de páginas de pesquisadores no Google Scholar e encontraram em uma pequena parte delas, 114 no total, padrões de citação anômalos. “A grande maioria tinha pelo menos algumas de suas referências duvidosas provenientes do ResearchGate”, disse Zaki à revista Science.

Ijad Madisch, CEO do ResearchGate, informou estar “ciente dos crescentes problemas de integridade na comunidade global de pesquisa” e garantiu à Science que está revisando seus processos. Segundo ele, as evidências de que o conteúdo fraudulento é apagado depois de ser indexado pelo Google vai ajudar a rede social a melhorar seu monitoramento de má conduta.

Republicar