sandro castelliEstá disponível para teste na internet a versão preliminar de um software que se propõe a detectar erros ou fraudes em sequências de DNA descritas em artigos científicos. Desenvolvido pela oncologista australiana Jennifer Byrne e pelo cientista da computação francês Cyril Labbé, o programa foi batizado de Seek & Blastn e compara sequências de nucleotídeos de genes humanos publicadas em papers com as armazenadas no banco de dados público Blastn (Nucleotide Basic Local Alignment Search Tool), dos Estados Unidos. “O software busca incompatibilidades entre a descrição de uma sequência no artigo e o que ela é de verdade”, explicou Jennifer Byrne à revista Nature. De acordo com Cyril Labbé, a versão on-line ainda precisa ser aperfeiçoada – há dificuldades, por exemplo, para reconhecer sequências de nucleotídeos descritas em arquivos PDF.
“Mas o software já consegue dar um apoio significativo e reduzir as análises manuais feitas por especialistas”, disse Labbé em um congresso internacional sobre revisão por pares realizado em Chicago, Estados Unidos, em setembro. O Seek & Blastn pode ser consultado no endereço scigendetection.imag.fr/TPD52/.
A dupla de pesquisadores já encontrou erros em mais de 60 trabalhos sobre genética do câncer. Alguns deles são pequenos e acidentais, mas, segundo Byrne, em muitos casos as incongruências são suficientes para invalidar resultados e conclusões. “O mais grave é que o uso de dados defeituosos pode ter implicações na pesquisa clínica e na busca de tratamentos contra o câncer”, afirmou. “Os cientistas precisam compreender melhor a natureza desses erros para evitar gastar tempo e dinheiro na tentativa de reproduzir resultados incorretos.”
O interesse da pesquisadora pelo assunto surgiu em 2015, quando encontrou o problema em cinco artigos sobre genética do câncer. Os papers descreviam um mesmo tipo de experiência, na qual se inativava um gene, o TPD52L2, usando como alvo uma sequência curta de nucleotídeos, e relatavam os efeitos da manobra no desenvolvimento de células tumorais. Byrne, que é chefe da unidade de câncer pediátrico do Kids Research Institute e professora de oncologia molecular da Universidade de Sydney, conhecia muito bem esse gene, identificado em 1998 por um grupo de pesquisadores chefiado por ela. O gene está relacionado ao surgimento de certos tipos de câncer de mama e de leucemia, mas sua atividade ainda é pouco conhecida.
A oncologista logo constatou que a sequência de nucleotídeos descrita nos cinco papers não correspondia à real. “Era altamente improvável, para não dizer impossível, que eles tivessem chegado aos resultados obtidos”, disse a pesquisadora ao jornal Sydney Morning Herald. Ela relatou seu achado e sua desconfiança aos editores dos periódicos que haviam publicado os artigos, e quatro dos cinco papers acabaram retratados. Os autores admitiram que não haviam feito o experimento, mas adquirido os dados de uma empresa de biotecnologia, embora a parceria não tivesse sido declarada.
Byrne suspeitou que o episódio não fosse um caso isolado e iniciou uma busca por outros papers na base de dados PubMed. Encontrou problemas semelhantes em 48 artigos. Todos eles descreviam o silenciamento de genes, mas havia tantas coincidências em títulos, dados e imagens que ela desconfiou que os autores também haviam obtido os dados de segunda mão. Fez então uma parceria com Cyril Labbé, da Universidade de Grenoble, na França, que havia criado um software para identificar papers fraudulentos, sem nenhum sentido, gerados por computador e publicados em anais de conferências, normalmente pouco lidos. Juntos encontraram erros nas sequências de nucleotídeos de 30 artigos, todos eles escritos por chineses. Sem identificar os autores, a dupla descreveu o problema em um artigo publicado em 2016 na revista Scientometrics.
Por enquanto, o software Seek & Blastn só compara nucleotídeos de genes humanos, mas os dois pesquisadores pretendem ampliar a análise para sequências de animais de laboratório. Eles ofereceram a versão preliminar na internet para que outros cientistas testem o programa e ajudem a aperfeiçoá-lo. A intenção é, mais tarde, oferecer o software a editores de periódicos, para que possam utilizá-lo na análise de manuscritos submetidos para publicação.
Já estão disponíveis diversas ferramentas capazes de checar de forma automática a robustez e a veracidade de grandes volumes de dados de pesquisa. As mais conhecidas e disseminadas são as que rastreiam textos em busca de evidências de plágio. Mas há outros exemplos. Pesquisadores da Universidade de Tilburg, na Holanda, criaram um software capaz de detectar erros estatísticos e causaram polêmica ao analisar 50 mil artigos do campo da psicologia e divulgar publicamente os resultados (ver Pesquisa FAPESP nº 253).
O Escritório de Integridade Científica (ORI), que monitora as pesquisas no âmbito do Departamento de Saúde dos Estados Unidos, recomenda um conjunto de softwares que detectam manipulação ou duplicação de imagens. Para David Allison, estatístico da Universidade de Indiana em Bloomington, tais ferramentas são valiosas quando usadas para promover boas práticas ou encorajar os pesquisadores a prevenir erros. “Elas também podem ajudar a medir taxas de erros em periódicos ou em campos do conhecimento”, disse Allison à Nature.
Republicar