Científicos de la Universidad del Estado de Pensilvania (Penn State), en Estados Unidos investigaron hasta qué punto los modelos de lenguaje natural como ChatGPT, que utilizan inteligencia artificial para articular una prosa realista y articulada como respuesta a preguntas de usuarios, consiguen generar contenido que no se caracterice como plagio. Ello se debe a que estos sistemas procesan, memorizan y reproducen información preexistente, con base en los gigantescos volúmenes de datos disponibles en internet, tales como libros, artículos científicos, páginas en Wikipedia y noticias.
El grupo analizó 210.000 textos generados por el programa GPT-2, de la startup OpenAI, creadora de ChatGPT, en busca de indicios de tres tipos diferentes de plagio: la transcripción literal, que se obtiene copiando y pegando fragmentos; la paráfrasis, que cambia palabras por sinónimos para obtener resultados levemente distintos, y el uso de una idea elaborada por otra persona sin mencionar su autoría, aunque formulada de manera diferente.
En el referido estudio se llegó a la conclusión de que los tres tipos de plagio están presentes. Y cuanto mayor era el conjunto de parámetros utilizados para entrenar a los modelos, más frecuentes eran los registros de mala conducta. En la evaluación se utilizaron dos tipos de modelos: los preentrenados, basados en un espectro amplio de datos, y los de sintonía fina, perfeccionados por el equipo de la Penn State con el propósito de ajustar el entrenamiento en un conjunto menor de documentos científicos y jurídicos, artículos académicos asociados al covid-19 y solicitudes de patentes. La elección de este tipo de contenidos no fue casual: en estos textos, el plagio es una práctica considerada muy problemática y no suele tolerarse.
Dentro del material generado por los preentrenados, lo más frecuente fueron las transcripciones literales, mientras que en los de sintonía fina eran más habituales las paráfrasis y la apropiación de ideas sin mencionar la fuente. “Pudimos comprobar que el plagio se hace presente en diferentes formatos”, dijo uno de los autores del trabajo, Dongwon Lee, científico de la computación de la Facultad de Tecnología y Ciencias Informáticas de la Penn State, según informa el servicio de noticias Eurekalert. Los hallazgos serán divulgados en detalle en la Web Science Conference, un evento organizado por la Association for Computing Machinery (ACM), que se llevará a cabo del 30 de abril al 4 de mayo en la ciudad de Austin (Texas – EE. UU.).
ChatGPT es uno de los varios sistemas basados en inteligencia artificial, que ha adquirido gran notoriedad al ser puesto a disposición del público. Desde noviembre, ya ha sido probado por más de 100 millones de personas y ha impresionado por su capacidad para generar textos coherentes que mimetizan la escritura humana (lea en Pesquisa FAPESP, edición nº 325). Una de las polémicas que ha despertado se refiere precisamente a la originalidad de sus respuestas y al temor de que se transforme en una fuente de mala conducta académica.
“La gente está detrás de los grandes modelos lingüísticos porque cuanto más grande es un modelo, más aumentan sus habilidades”, dijo el autor principal del estudio, Jooyoung Lee, estudiante de doctorado en la Facultad de Ciencias y Tecnología de la Información de la Penn State. Las herramientas de redacción basadas en inteligencia artificial consiguen generar respuestas únicas e individualizadas a las preguntas formuladas por los usuarios, aun cuando lo hacen extrayendo la información pertinente a un banco de datos. No obstante, esta habilidad no quita que la herramienta pueda ser una fuente de plagio, e incluso en formatos más difíciles de detectar. “Entrenamos a los modelos para imitar la escritura humana, pero no les hemos enseñado a evitar el plagio”, declaró Lee.
Se están desarrollando diversas herramientas para detectar contenido generado por programas de inteligencia artificial. La propia OpenAI ha desarrollado un programa capaz de reconocer los textos elaborados por robots. Existen otros de este tipo en internet, tales como Writer AI Content Detector y Content at Scale. Como los sistemas de lenguaje natural se encuentran en fase de desarrollo, también será necesario actualizar continuamente la tecnología para el rastreo de su producción.
Un equipo de la Escuela de Ingeniería y Ciencias Aplicadas de la misma Penn State demostró que es posible entrenar a las personas para identificar estos textos, para no tener que depender exclusivamente de los programas detectores. El estudio dirigido por el científico de la computación Chris Callison-Burch, presentado el pasado mes de febrero en un congreso de la Asociación para el Avance de la Inteligencia Artificial (AAAI), realizado en Washington (EE. UU.), reveló que estas herramientas ya son muy eficaces produciendo una prosa fluida acorde a las normas gramaticales. “Pero incurren en diversos tipos de errores que podemos aprender a identificar”, dijo al blog Penn Engineering Today el científico de la computación Liam Dugan, alumno de doctorado de la Penn State y uno de los autores del artículo.
El experimento utilizó un juego disponible en internet, llamado Real or Fake Text (Texto Real o Falso). El grupo les presentó a los participantes del estudio, todos ellos alumnos de grado o posgrado de carreras de inteligencia artificial de la Penn State, frases que comenzaban escritas por humanos pero que, a partir de cierto punto, reproducían respuestas elaboradas por modelos de lenguaje. Los textos seleccionados eran procedentes de noticias publicadas en la prensa, discursos presidenciales, relatos ficticios y recetas de cocina. Se invitó a los jugadores a señalar en qué momento comenzaba el tramo escrito por inteligencia artificial y a explicar por qué apostaban por esa ubicación. Cuando acertaban, recibían puntos. Las principales razones apuntadas eran la aparición de contenido irrelevante, errores lógicos, frases contradictorias, otras muy genéricas y problemas gramaticales. Fue más fácil acertar en las recetas culinarias que en las demás narraciones.
El puntaje de los participantes fue sensiblemente más alto que si las respuestas se hubieran hecho al azar, lo que demuestra que los textos generados por robots son detectables. Aunque las habilidades de los jugadores eran bastante variables, su desempeño mejoraba con el uso del juego, lo que indica un aprendizaje. “Hace cinco años, los modelos no conseguían concentrarse en un tema o enunciar una frase fluida”, dijo Dugan. “Ahora, es raro que cometan errores gramaticales. Nuestro estudio identifica los tipos de errores que cometen los chatbots, pero no debe perderse de vista que ellos seguirán evolucionando. La gente deberá seguir entrenándose para reconocer la diferencia y trabajar con el software de detección como complemento”.
Republicar