Pesquisadores italianos mostraram que a tecnologia de inteligência artificial que abastece o ChatGPT é capaz de gerar dados falsos de ensaios clínicos para sustentar conclusões de artigos científicos fraudulentos. Em um paper publicado em 9 de novembro na revista JAMA Ophthalmology, o grupo do cirurgião oftalmologista Giuseppe Giannaccare, da Universidade de Cagliari, na Itália, utilizou os recursos do GPT-4, versão mais recente do modelo de linguagem do ChatGPT, associados aos de outro modelo que produz análises estatísticas e visualização de dados, o Advanced Data Analysis (ADA). Por meio deles, conseguiu manipular dados de ensaios clínicos sobre dois tipos de transplante de córnea adotados no tratamento de uma doença chamada ceratocone.
Por solicitação dos pesquisadores, os modelos geraram uma determinada diferença estatística em exames feitos com pacientes operados. Os ensaios clínicos simulados incluíram 160 participantes do sexo masculino e 140 mulheres e concluíram que uma cirurgia era mais efetiva do que a outra, embora isso não seja verdade. Um ensaio clínico real realizado em 2010 com 77 participantes mostrou que os resultados dos dois métodos são semelhantes até dois anos após as cirurgias.
Giannaccare disse à revista Nature que o objetivo do trabalho foi mostrar que, em poucos minutos, é possível fazer com que o modelo de inteligência artificial fabrique resultados científicos convincentes, mas que não são amparados por informações reais e que até mesmo podem ir na contramão das evidências. “Se olharmos muito rapidamente, é difícil reconhecer a origem não humana”, afirmou o cirurgião.
“Parece muito fácil criar conjuntos de dados que sejam pelo menos superficialmente plausíveis”, disse Jack Wilkinson, bioestatístico da Universidade de Manchester, no Reino Unido, que analisou os ensaios falsos a pedido da Nature. Com seu colega Zewen Lu, ele só encontrou inconsistências nos resultados depois de fazer um exame minucioso. Havia discrepâncias, por exemplo, entre nomes atribuídos a pacientes e o sexo que seria esperado para eles. As idades dos voluntários se agruparam de uma forma que dificilmente seria obtida em um experimento genuíno – havia uma quantidade desproporcional de participantes cujas idades terminavam com os números 7 e 8. Outro problema foi a falta de correlação entre medidas obtidas em exames feitos com os pacientes antes e depois das cirurgias. Em um projeto colaborativo, Wilkinson está desenvolvendo ferramentas também baseadas em inteligência artificial para detectar esse tipo de estudo problemático.
Republicar