Veneno que também é antídoto : Revista Pesquisa Fapesp

Divulgada em julho, a declaração anual do Comitê de Integridade de Pesquisa do Reino Unido (UKCori) destacou que o avanço da inteligência artificial gerou novos desafios, como o de identificar trabalhos acadêmicos gerados pelo ChatGPT, mas também está criando oportunidades para ampliar a produtividade científica e combater a má conduta. “Ferramentas que utilizam inteligência artificial podem aprimorar os processos de pesquisa”, segundo escreveram os integrantes do comitê no relatório, referindo-se ao uso crescente dessa tecnologia por editores de revistas científicas para agilizar o processo de análise e seleção de artigos ou para detectar indícios sutis de manipulação de imagens ou de truques para tentar enganar programas antiplágio.

A inteligência artificial, diz o documento, pode igualmente ser útil para fornecer dados de interesse de órgãos de promoção da integridade que dificilmente seriam obtidos de outra forma – o próprio relatório do UKCori publica um quadro sobre indicadores de ciência aberta, como a evolução da quantidade de dados e códigos compartilhados por pesquisadores em repositórios públicos, que foram produzidos pela coleção de revistas PLOS utilizando técnicas de inteligência artificial. O UKCori é um órgão independente criado em 2022 para promover boas práticas científicas no Reino Unido, associado ao UK Research and Innovation, principal agência de fomento à ciência do país.

Grandes modelos de linguagem, que em programas como o ChatGPT identificam padrões sobre como os seres humanos conectam palavras, números e símbolos, também podem ser úteis para rastrear sinais de má conduta. No final de maio, a equipe do cientista de dados Dmitry Kobak, da Universidade de Tübingen, na Alemanha, publicou no repositório de preprints bioRxiv um atlas de toda a literatura da área biomédica publicada no mundo entre 1970 e 2021. Para gerar o enorme mapa circular, que lembra um pouco a imagem de uma placa de Petri colonizada por bactérias, foi necessário primeiro fazer o download de resumos de 20,6 milhões de artigos utilizando a ferramenta de busca PubMed, que dá acesso à base de dados da literatura biomédica Medline.

O grupo usou um modelo de linguagem de inteligência artificial, o PubMedBert, e agregou artigos com características ou termos semelhantes. Os agrupamentos de papers com conteúdo convergente foram batizados de “vizinhanças” – basta dar um zoom no atlas para analisar em detalhes esses aglomerados.

O mapa permite analisar tendências de todo tipo presente na literatura, como as relacionadas ao gênero e à origem dos autores de cada agrupamento, mas também mostrou potencial para detectar má conduta de um modo mais eficiente do que o disponível hoje. Os pesquisadores analisaram um conjunto de 11.756 artigos presentes no atlas que sofreram retratação – esse status indica papers cancelados devido à descoberta de erros, fraudes ou plágio que comprometeram a correção de seu conteúdo. Os resumos foram sinalizados como retratados pelo banco de dados PubMed para que não sejam considerados como literatura válida.

Embora estivessem espalhados por todo o mapa, muitos deles se situavam em uma mesma vizinhança, formando o que os autores denominaram “ilhas”, nas quais foi possível vislumbrar concentrações de artigos retratados em temas específicos, como pesquisas de drogas contra o câncer, genes marcadores e funções de microRNAs. Esses tópicos são frequentemente abordados em estudos fraudulentos produzidos por fábricas de papers, serviços ilegais que produzem estudos em geral com dados ou imagens forjadas, comercializam a autoria dos trabalhos com pesquisadores interessados e até ajudam a submetê-los para publicação em nome dos clientes.

Ao verificar os demais artigos presentes nas mesmas ilhas, e que não foram retratados, o grupo encontrou 25 trabalhos que também podem ter sido produzidos por fábricas de papers, mas não haviam chamado a atenção. Eles exibiam características comuns a esses artigos fraudulentos, como títulos com padrão idêntico ou a afiliação de autores a hospitais da China. A análise das ilhas pode ajudar editores de revistas e universidades a investigar estudos que podem ter escapado de seu escrutínio. “Mas aglomerados de papers semelhantes precisariam de mais triagem para evitar a sinalização incorreta de papers genuínos”, disse à revista Science Jennifer Byrne, professora de oncologia molecular da Universidade de Sydney, na Austrália, e especialista em integridade científica.

Outra frente promissora aberta pela inteligência artificial é a identificação das chamadas revistas predatórias, periódicos que publicam artigos em troca de dinheiro, sem fazer uma avaliação rigorosa de seu conteúdo. Um grupo de cientistas da computação da Universidade Nacional Yang Ming Chiao Tung, em Taiwan, desenvolveu um sistema de verificação de periódicos, batizado de AJPC, baseado em aprendizado de máquina. Foram coletados dados de 883 periódicos apontados como predatórios em duas listas disponíveis na internet e de outras 1.213 revistas de boa procedência, obtidas em compilação feita pelo Instituto de Saúde de Berlim – estas listas costumam ser utilizadas para orientar autores a escolher revistas idôneas para publicar seus artigos.

A equipe extraiu informações que ajudaram a identificar palavras e termos característicos de sites de revistas predatórias. Constatou, por exemplo, que as páginas dessas publicações tendem a enfatizar demais termos como “revisão por pares” e “indexação”, enquanto periódicos legítimos mencionam com mais moderação conceitos que padronizam os processos de publicação. Depois, testou oito diferentes algoritmos de aprendizado de máquina com potencial para distinguir entre periódicos predatórios e legítimos. Selecionou um deles, o algoritmo de “floresta aleatória”, que teve o melhor desempenho para distinguir uma amostra de 167 sites, com o índice mais elevado de acertos e apenas dois falsos negativos. “Os resultados dos testes de desempenho sugerem que nosso sistema funciona tão bem ou melhor do que aqueles que estão sendo usados atualmente para identificar editores e publicações suspeitas”, escreveram os pesquisadores taiwaneses, no artigo publicado na revista Scientific Reports que apresentou o AJPC. Eles ressaltam que as conclusões são apenas indicativas, sendo necessário complementar a análise com o olhar humano. Um próximo passo será treinar o sistema para identificar fraudes em anais de conferências, que têm características distintas dos periódicos predatórios. O recurso já está sendo utilizado em universidades de Taiwan.

Republicar

É permitida a republicação desta reportagem em meios digitais de acordo com a licença Creative Commons CC-BY-NC-ND. É obrigatório o cumprimento da Política de Republicação Digital de Conteúdo de Pesquisa FAPESP, aqui especificada. Em resumo, o conteúdo não pode ser protegido por paywall, isto é, não pode ter acesso limitado a assinantes ou mediante pagamento, não deve ser editado e a autoria deve ser atribuída, assim como a fonte (Pesquisa FAPESP). O uso do botão HTML permite o atendimento a essas normas. Em caso de reprodução apenas do texto, por favor, consulte a Política de Republicação Digital.

Veneno que também é antídotoA inteligência artificial, que impõe desafios inéditos para a integridade científica, também oferece ferramentas para defendê-la

Fabrício Marques, da Revista Pesquisa FAPESP

<img src="https://revistapesquisa.fapesp.br/wp-content/uploads/2023/07/RPF-BP-Veneno-2023-07-1140.jpg" class="attachment-post-thumbnail size-post-thumbnail wp-post-image" alt="" decoding="async" fetchpriority="high" srcset="https://revistapesquisa.fapesp.br/wp-content/uploads/2023/07/RPF-BP-Veneno-2023-07-1140.jpg 1140w, https://revistapesquisa.fapesp.br/wp-content/uploads/2023/07/RPF-BP-Veneno-2023-07-1140-250x146.jpg 250w, https://revistapesquisa.fapesp.br/wp-content/uploads/2023/07/RPF-BP-Veneno-2023-07-1140-700x410.jpg 700w, https://revistapesquisa.fapesp.br/wp-content/uploads/2023/07/RPF-BP-Veneno-2023-07-1140-120x70.jpg 120w" sizes="(max-width: 1140px) 100vw, 1140px"><div class="wp-caption"><p class="media-credits">Angel Octavio Burguette Morales / Getty Images</p></div><p>Divulgada em julho, a declaração anual do Comitê de Integridade de Pesquisa do Reino Unido (UKCori) destacou que o avanço da inteligência artificial gerou novos desafios, como o de identificar trabalhos acadêmicos gerados pelo ChatGPT, mas também está criando oportunidades para ampliar a produtividade científica e combater a má conduta. “Ferramentas que utilizam inteligência artificial podem aprimorar os processos de pesquisa”, segundo escreveram os integrantes do comitê no relatório, referindo-se ao uso crescente dessa tecnologia por editores de revistas científicas para agilizar o processo de análise e seleção de artigos ou para detectar indícios sutis de manipulação de imagens ou de truques para tentar enganar programas antiplágio.</p><p>A inteligência artificial, diz o documento, pode igualmente ser útil para fornecer dados de interesse de órgãos de promoção da integridade que dificilmente seriam obtidos de outra forma – o próprio relatório do UKCori publica um quadro sobre indicadores de ciência aberta, como a evolução da quantidade de dados e códigos compartilhados por pesquisadores em repositórios públicos, que foram produzidos pela coleção de revistas PLOS utilizando técnicas de inteligência artificial. O UKCori é um órgão independente criado em 2022 para promover boas práticas científicas no Reino Unido, associado ao UK Research and Innovation, principal agência de fomento à ciência do país.</p><p>Grandes modelos de linguagem, que em programas como o ChatGPT identificam padrões sobre como os seres humanos conectam palavras, números e símbolos, também podem ser úteis para rastrear sinais de má conduta. No final de maio, a equipe do cientista de dados Dmitry Kobak, da Universidade de Tübingen, na Alemanha, publicou no repositório de <em>preprints</em> bioRxiv um atlas de toda a literatura da área biomédica publicada no mundo entre 1970 e 2021. Para gerar o enorme mapa circular, que lembra um pouco a imagem de uma placa de Petri colonizada por bactérias, foi necessário primeiro fazer o download de resumos de 20,6 milhões de artigos utilizando a ferramenta de busca PubMed, que dá acesso à base de dados da literatura biomédica Medline.</p><p>O grupo usou um modelo de linguagem de inteligência artificial, o PubMedBert, e agregou artigos com características ou termos semelhantes. Os agrupamentos de <em>papers</em> com conteúdo convergente foram batizados de “vizinhanças” – basta dar um <em>zoom</em> no atlas para analisar em detalhes esses aglomerados.</p><p>O mapa permite analisar tendências de todo tipo presente na literatura, como as relacionadas ao gênero e à origem dos autores de cada agrupamento, mas também mostrou potencial para detectar má conduta de um modo mais eficiente do que o disponível hoje. Os pesquisadores analisaram um conjunto de 11.756 artigos presentes no atlas que sofreram retratação – esse <em>status</em> indica <em>papers</em> cancelados devido à descoberta de erros, fraudes ou plágio que comprometeram a correção de seu conteúdo. Os resumos foram sinalizados como retratados pelo banco de dados PubMed para que não sejam considerados como literatura válida.</p><p>Embora estivessem espalhados por todo o mapa, muitos deles se situavam em uma mesma vizinhança, formando o que os autores denominaram “ilhas”, nas quais foi possível vislumbrar concentrações de artigos retratados em temas específicos, como pesquisas de drogas contra o câncer, genes marcadores e funções de microRNAs. Esses tópicos são frequentemente abordados em estudos fraudulentos produzidos por fábricas de <em>papers</em>, serviços ilegais que produzem estudos em geral com dados ou imagens forjadas, comercializam a autoria dos trabalhos com pesquisadores interessados e até ajudam a submetê-los para publicação em nome dos clientes.</p><p>Ao verificar os demais artigos presentes nas mesmas ilhas, e que não foram retratados, o grupo encontrou 25 trabalhos que também podem ter sido produzidos por fábricas de <em>papers</em>, mas não haviam chamado a atenção. Eles exibiam características comuns a esses artigos fraudulentos, como títulos com padrão idêntico ou a afiliação de autores a hospitais da China. A análise das ilhas pode ajudar editores de revistas e universidades a investigar estudos que podem ter escapado de seu escrutínio. “Mas aglomerados de <em>papers</em> semelhantes precisariam de mais triagem para evitar a sinalização incorreta de <em>papers</em> genuínos”, disse à revista <em>Science</em> Jennifer Byrne, professora de oncologia molecular da Universidade de Sydney, na Austrália, e especialista em integridade científica.</p><p>Outra frente promissora aberta pela inteligência artificial é a identificação das chamadas revistas predatórias, periódicos que publicam artigos em troca de dinheiro, sem fazer uma avaliação rigorosa de seu conteúdo. Um grupo de cientistas da computação da Universidade Nacional Yang Ming Chiao Tung, em Taiwan, desenvolveu um sistema de verificação de periódicos, batizado de AJPC, baseado em aprendizado de máquina. Foram coletados dados de 883 periódicos apontados como predatórios em duas listas disponíveis na internet e de outras 1.213 revistas de boa procedência, obtidas em compilação feita pelo Instituto de Saúde de Berlim – estas listas costumam ser utilizadas para orientar autores a escolher revistas idôneas para publicar seus artigos.</p><p>A equipe extraiu informações que ajudaram a identificar palavras e termos característicos de sites de revistas predatórias. Constatou, por exemplo, que as páginas dessas publicações tendem a enfatizar demais termos como “revisão por pares” e “indexação”, enquanto periódicos legítimos mencionam com mais moderação conceitos que padronizam os processos de publicação. Depois, testou oito diferentes algoritmos de aprendizado de máquina com potencial para distinguir entre periódicos predatórios e legítimos. Selecionou um deles, o algoritmo de “floresta aleatória”, que teve o melhor desempenho para distinguir uma amostra de 167 sites, com o índice mais elevado de acertos e apenas dois falsos negativos. “Os resultados dos testes de desempenho sugerem que nosso sistema funciona tão bem ou melhor do que aqueles que estão sendo usados atualmente para identificar editores e publicações suspeitas”, escreveram os pesquisadores taiwaneses, no artigo publicado na revista <em>Scientific Reports</em> que apresentou o AJPC. Eles ressaltam que as conclusões são apenas indicativas, sendo necessário complementar a análise com o olhar humano. Um próximo passo será treinar o sistema para identificar fraudes em anais de conferências, que têm características distintas dos periódicos predatórios. O recurso já está sendo utilizado em universidades de Taiwan.</p><br><p>Este texto foi originalmente publicado por <a href='https://revistapesquisa.fapesp.br/'>Pesquisa FAPESP</a> de acordo com a <a href='https://creativecommons.org/licenses/by-nd/4.0/'> licença Creative Commons CC-BY-NC-ND</a>. Leia o <a href='https://revistapesquisa.fapesp.br/veneno-que-tambem-e-antidoto/' target='_blank'>original aqui</a>.</p><script>var img = new Image(); img.src='https://revistapesquisa.fapesp.br/republicacao_frame?id=486120&referer=' + window.location.href;</script>

Veneno que também é antídotoA inteligência artificial, que impõe desafios inéditos para a integridade científica, também oferece ferramentas para defendê-la

Fabrício Marques, da Revista Pesquisa FAPESP

Divulgada em julho, a declaração anual do Comitê de Integridade de Pesquisa do Reino Unido (UKCori) destacou que o avanço da inteligência artificial gerou novos desafios, como o de identificar trabalhos acadêmicos gerados pelo ChatGPT, mas também está criando oportunidades para ampliar a produtividade científica e combater a má conduta. “Ferramentas que utilizam inteligência artificial podem aprimorar os processos de pesquisa”, segundo escreveram os integrantes do comitê no relatório, referindo-se ao uso crescente dessa tecnologia por editores de revistas científicas para agilizar o processo de análise e seleção de artigos ou para detectar indícios sutis de manipulação de imagens ou de truques para tentar enganar programas antiplágio.

A inteligência artificial, diz o documento, pode igualmente ser útil para fornecer dados de interesse de órgãos de promoção da integridade que dificilmente seriam obtidos de outra forma – o próprio relatório do UKCori publica um quadro sobre indicadores de ciência aberta, como a evolução da quantidade de dados e códigos compartilhados por pesquisadores em repositórios públicos, que foram produzidos pela coleção de revistas PLOS utilizando técnicas de inteligência artificial. O UKCori é um órgão independente criado em 2022 para promover boas práticas científicas no Reino Unido, associado ao UK Research and Innovation, principal agência de fomento à ciência do país.

Grandes modelos de linguagem, que em programas como o ChatGPT identificam padrões sobre como os seres humanos conectam palavras, números e símbolos, também podem ser úteis para rastrear sinais de má conduta. No final de maio, a equipe do cientista de dados Dmitry Kobak, da Universidade de Tübingen, na Alemanha, publicou no repositório de preprints bioRxiv um atlas de toda a literatura da área biomédica publicada no mundo entre 1970 e 2021. Para gerar o enorme mapa circular, que lembra um pouco a imagem de uma placa de Petri colonizada por bactérias, foi necessário primeiro fazer o download de resumos de 20,6 milhões de artigos utilizando a ferramenta de busca PubMed, que dá acesso à base de dados da literatura biomédica Medline.

O grupo usou um modelo de linguagem de inteligência artificial, o PubMedBert, e agregou artigos com características ou termos semelhantes. Os agrupamentos de papers com conteúdo convergente foram batizados de “vizinhanças” – basta dar um zoom no atlas para analisar em detalhes esses aglomerados.

O mapa permite analisar tendências de todo tipo presente na literatura, como as relacionadas ao gênero e à origem dos autores de cada agrupamento, mas também mostrou potencial para detectar má conduta de um modo mais eficiente do que o disponível hoje. Os pesquisadores analisaram um conjunto de 11.756 artigos presentes no atlas que sofreram retratação – esse status indica papers cancelados devido à descoberta de erros, fraudes ou plágio que comprometeram a correção de seu conteúdo. Os resumos foram sinalizados como retratados pelo banco de dados PubMed para que não sejam considerados como literatura válida.

Embora estivessem espalhados por todo o mapa, muitos deles se situavam em uma mesma vizinhança, formando o que os autores denominaram “ilhas”, nas quais foi possível vislumbrar concentrações de artigos retratados em temas específicos, como pesquisas de drogas contra o câncer, genes marcadores e funções de microRNAs. Esses tópicos são frequentemente abordados em estudos fraudulentos produzidos por fábricas de papers, serviços ilegais que produzem estudos em geral com dados ou imagens forjadas, comercializam a autoria dos trabalhos com pesquisadores interessados e até ajudam a submetê-los para publicação em nome dos clientes.

Ao verificar os demais artigos presentes nas mesmas ilhas, e que não foram retratados, o grupo encontrou 25 trabalhos que também podem ter sido produzidos por fábricas de papers, mas não haviam chamado a atenção. Eles exibiam características comuns a esses artigos fraudulentos, como títulos com padrão idêntico ou a afiliação de autores a hospitais da China. A análise das ilhas pode ajudar editores de revistas e universidades a investigar estudos que podem ter escapado de seu escrutínio. “Mas aglomerados de papers semelhantes precisariam de mais triagem para evitar a sinalização incorreta de papers genuínos”, disse à revista Science Jennifer Byrne, professora de oncologia molecular da Universidade de Sydney, na Austrália, e especialista em integridade científica.

Outra frente promissora aberta pela inteligência artificial é a identificação das chamadas revistas predatórias, periódicos que publicam artigos em troca de dinheiro, sem fazer uma avaliação rigorosa de seu conteúdo. Um grupo de cientistas da computação da Universidade Nacional Yang Ming Chiao Tung, em Taiwan, desenvolveu um sistema de verificação de periódicos, batizado de AJPC, baseado em aprendizado de máquina. Foram coletados dados de 883 periódicos apontados como predatórios em duas listas disponíveis na internet e de outras 1.213 revistas de boa procedência, obtidas em compilação feita pelo Instituto de Saúde de Berlim – estas listas costumam ser utilizadas para orientar autores a escolher revistas idôneas para publicar seus artigos.

A equipe extraiu informações que ajudaram a identificar palavras e termos característicos de sites de revistas predatórias. Constatou, por exemplo, que as páginas dessas publicações tendem a enfatizar demais termos como “revisão por pares” e “indexação”, enquanto periódicos legítimos mencionam com mais moderação conceitos que padronizam os processos de publicação. Depois, testou oito diferentes algoritmos de aprendizado de máquina com potencial para distinguir entre periódicos predatórios e legítimos. Selecionou um deles, o algoritmo de “floresta aleatória”, que teve o melhor desempenho para distinguir uma amostra de 167 sites, com o índice mais elevado de acertos e apenas dois falsos negativos. “Os resultados dos testes de desempenho sugerem que nosso sistema funciona tão bem ou melhor do que aqueles que estão sendo usados atualmente para identificar editores e publicações suspeitas”, escreveram os pesquisadores taiwaneses, no artigo publicado na revista Scientific Reports que apresentou o AJPC. Eles ressaltam que as conclusões são apenas indicativas, sendo necessário complementar a análise com o olhar humano. Um próximo passo será treinar o sistema para identificar fraudes em anais de conferências, que têm características distintas dos periódicos predatórios. O recurso já está sendo utilizado em universidades de Taiwan.

Este texto foi originalmente publicado por Pesquisa FAPESP de acordo com a  licença Creative Commons CC-BY-NC-ND. Leia o original aqui.