Um estudo divulgado na revista Science Advances estimou que um em cada sete artigos científicos da área biomédica publicados em 2024 foi escrito ou editado com a ajuda de programas de inteligência artificial generativa, como o ChatGPT. O grupo liderado pelo cientista de dados Dmitry Kobak, da Universidade de Tübingen, na Alemanha, analisou mais de 15 milhões de resumos de artigos indexados na base de dados Pubmed entre 2010 e 2024 e observou, no último ano da série, uma mudança abrupta no vocabulário utilizado nos papers que coincide com o surgimento dos chamados grandes modelos de linguagem, sistemas avançados de inteligência artificial que compreendem e geram textos semelhantes aos produzidos por seres humanos. Um conjunto de 454 palavras passaram a aparecer nos resumos com mais frequência do que em qualquer outro ano desde 2010.
Na maioria das vezes, eram verbos e adjetivos relacionados a um certo estilo de escrita e não ao conteúdo da pesquisa. Em alguns casos, tratava-se de palavras de uso comum, como descobertas, aprofundamento e potencial, mas também houve casos de adjetivos hiperbólicos, como incomparável e inestimável.
É certo que o léxico usado nos artigos científicos sofre transformações ao longo do tempo. O estudo mostrou que, em 2015, houve um aumento no uso da palavra “ebola” e, em 2017, da palavra “zika”, como resultado do crescimento da incidência dessas duas doenças virais e do número de estudos sobre elas. Já na pandemia, cerca de 190 termos, na maioria substantivos, se tornaram mais frequentes no corpo de artigos científicos, entre eles Covid, lockdown e máscara. Nenhum desses casos, segundo os autores, envolveu um conjunto tão grande de palavras quanto o que se viu a partir de 2023/2024. “O vocabulário excedente durante a pandemia de Covid-19 consistia em palavras de conteúdo, enquanto o vocabulário excedente em 2024 consistia quase inteiramente em palavras de estilo”, escreveram os autores.
Nos artigos de pesquisadores de alguns países, como China e Coreia do Sul, e de certas áreas, como computação e bioinformática, a incidência do uso dessas palavras era ainda maior do que a média – atingindo um em cada cinco papers. Kobak disse à revista Nature que o viés do uso do ChatGPT é de alta e muito provavelmente os números serão maiores neste ano. “O uso dos grandes modelos de linguagem está em ascensão”, diz. Ele afirma que o uso excessivo de palavras de estilo permite adotá-las como marcadores da utilização de grandes modelos de linguagem na escrita científica.
Mas talvez isso não funcione por muito tempo, como mostrou um trabalho publicado no repositório de preprint ArXiv em fevereiro. Assinado por Mingmeng Geng, da École Normale Supérieure, em Paris, e Roberto Trotta, do Imperial College London, o trabalho demonstrou que algumas palavras reveladoras do uso de programas de inteligência artificial, como aprofundamento, tornaram-se menos frequentes em artigos acadêmicos no final de 2024, possivelmente porque os autores passaram a pedir aos modelos de linguagem que evitem o seu uso.
Uma versão deste texto foi publicada na edição impressa representada no pdf. Republicar