En el corazón de una revolución tecnológica sin precedentes, los modelos de inteligencia artificial como GPT-4 parecen estar aprendiendo más de lo que deberían. Una reciente investigación sugiere que, al entrenar estos sistemas, algunas empresas —incluida OpenAI— podrían haber incluido obras protegidas por derechos de autor sin el consentimiento de sus autores. Pero, ¿qué significa esto realmente? ¿Las máquinas están plagiando, memorizando o simplemente «aprendiendo»?
Vamos a desentrañar este tema paso a paso, como si estuviéramos explicándole a un amigo curioso qué hay detrás de una acusación legal que podría transformar el futuro de la inteligencia artificial.
¿Cómo aprenden los modelos de IA?
Primero lo básico: los modelos como GPT-4 o GPT-3.5 funcionan como predictores de texto. Les das una frase incompleta y ellos intentan adivinar la siguiente palabra. Para lograrlo, han sido entrenados con enormes volúmenes de texto —libros, artículos, sitios web— para detectar patrones en el lenguaje.
Este proceso de aprendizaje es parecido a lo que hace una persona que ha leído cientos de novelas policiacas: puede anticipar quién es el asesino antes de que termine el libro, porque ha identificado ciertos elementos comunes. Sin embargo, a diferencia de una persona, la IA a veces no solo aprende patrones, sino que también puede memorizar fragmentos exactos del material que estudió.
El estudio que encendió las alarmas
Un grupo de investigadores de la Universidad de Washington, la Universidad de Copenhague y Stanford desarrolló una técnica para identificar si un modelo ha memorizado contenido específico. Su método se basa en lo que llaman palabras de «alta sorpresa»: términos poco comunes que, al ser eliminados de un texto, pueden servir como prueba para ver si la IA los recuerda con precisión.
Por ejemplo, en una frase como «El motor zumbaba suavemente bajo el radar», la palabra “radar” es estadísticamente inesperada. Si al ocultarla, la IA logra adivinarla correctamente, hay una alta probabilidad de que haya visto ese fragmento exacto durante su entrenamiento.
Los investigadores aplicaron este método a modelos de OpenAI, incluyendo GPT-4, y detectaron que, en ciertos casos, los sistemas podían recuperar fragmentos literales de libros populares y artículos de The New York Times. Específicamente, el modelo parecía haber memorizado partes de un conjunto de libros electrónicos protegidos por derechos, conocido como BookMIA.
¿Es esto ilegal?
Aquí es donde las cosas se ponen complicadas. En Estados Unidos, el uso de material protegido sin permiso puede violar los derechos de autor, salvo que se aplique la doctrina del “uso justo” (fair use). Esta excepción permite usar obras protegidas para fines como crítica, parodia o enseñanza, siempre y cuando se cumplan ciertos criterios.
OpenAI y otras empresas defienden que entrenar un modelo es un uso justo. Alegan que no se trata de copiar ni distribuir textos tal cual, sino de extraer patrones de lenguaje. Pero los demandantes —entre ellos escritores y desarrolladores— argumentan que si la IA puede reproducir textualmente fragmentos de sus obras, eso ya va más allá del uso justo.
Es como si alguien estudiara cientos de recetas de un chef famoso, y luego vendiera un libro que contiene varias de esas recetas palabra por palabra. ¿Inspiración o plagio? Esa es la pregunta que deberá responder la justicia.
¿Qué dice OpenAI al respecto?
OpenAI ha adoptado una postura ambigua. Por un lado, ha firmado acuerdos de licencia con algunas editoriales y ofrece mecanismos para que los autores soliciten que sus obras no se utilicen para entrenar modelos. Por otro lado, también ha presionado a gobiernos para flexibilizar las leyes de derechos de autor en favor de la inteligencia artificial.
Esto genera una tensión creciente: mientras el desarrollo tecnológico avanza a pasos agigantados, las reglas legales caminan más despacio. Y aunque la transparencia sobre los datos de entrenamiento es cada vez más reclamada por la comunidad, muchas empresas aún tratan esa información como un secreto industrial.
¿Qué implicaciones tiene esto para el futuro?
Más allá de los tribunales, este debate plantea preguntas fundamentales sobre la ética y la sostenibilidad de la IA. ¿Queremos modelos más poderosos, aunque para ello se alimenten de obras sin permiso? ¿O deberíamos construir IA sobre bases más justas y transparentes, aunque eso signifique avanzar más lento?
Imaginemos que entrenamos a una IA con miles de obras literarias sin autorización. El sistema se vuelve brillante para escribir cuentos, pero esos cuentos son tan parecidos a los originales que rozan la copia. ¿Estamos generando contenido nuevo, o simplemente un espejo que refleja lo que otros crearon?
Por eso, cada vez son más las voces que piden auditorías independientes y herramientas públicas para examinar cómo se entrenan los modelos. Como señaló Abhilasha Ravichander, coautora del estudio, “si queremos modelos confiables, necesitamos entender lo que contienen”.
La transparencia como solución
Este estudio no solo destapa posibles usos indebidos de contenido, sino que propone una vía práctica para detectarlos. Su método puede convertirse en una herramienta valiosa para auditar modelos de lenguaje y exigir más responsabilidad a las empresas.
Al final del día, se trata de encontrar un equilibrio: proteger los derechos de los creadores sin frenar el avance de la innovación. La inteligencia artificial puede ser una gran aliada para el conocimiento, pero solo si se construye con respeto por quienes lo generan.