Encyclopaedia Britannica y Merriam-Webster han presentado una demanda contra OpenAI por lo que describen como “infracción masiva” de derechos de autor, según informó TechCrunch en un artículo firmado por Amanda Silberling. El núcleo del caso, siempre de acuerdo con la denuncia, es que el editor —Britannica, propietario de Merriam-Webster— mantiene el copyright de cerca de 100.000 artículos online que habrían sido recopilados y utilizados para entrenar modelos de lenguaje sin permiso.
La acusación no se queda en el pasado, en el momento de “cosechar” datos para entrenar. También apunta al presente: la editorial sostiene que el sistema puede generar respuestas que incluyen fragmentos “total o parcialmente” reproducidos de forma literal, como si la máquina estuviera devolviendo párrafos de un texto ajeno con la misma facilidad con la que alguien copia y pega. Dicho de forma cotidiana: no se discute solo si el alumno leyó el libro para aprender, sino si en el examen está entregando páginas calcadas.
Entrenamiento, “copias” y el papel de la RAG
La demanda pone el foco en dos fases que a menudo se mezclan en la conversación pública sobre IA generativa. La primera es el entrenamiento: el proceso por el que un modelo aprende patrones del lenguaje a partir de grandes volúmenes de texto. La segunda es el momento en que el sistema responde y, en ciertos casos, consulta información para completar la respuesta.
En esa segunda fase aparece un término técnico que empieza a sonar cada vez más fuera de los laboratorios: RAG (retrieval augmented generation). TechCrunch explica que se trata de un flujo de trabajo en el que el modelo “escanea” la web u otras bases de datos para incorporar información reciente al contestar. Si imaginamos a ChatGPT como una persona que responde preguntas, la RAG sería el gesto de girarse, abrir un archivador y mirar notas actualizadas antes de hablar. Para Britannica, ese mecanismo también estaría usando sus artículos de forma indebida dentro de la experiencia del producto, no solo como material de aprendizaje histórico.
Este matiz importa porque cambia el tipo de fricción. El entrenamiento se parece más a estudiar; la recuperación se parece más a consultar una fuente concreta “en directo”. Y cuando lo consultado está protegido por copyright, la pregunta jurídica se vuelve más afilada: ¿se está transformando el conocimiento o se está sustituyendo el acceso a la obra?
La acusación bajo la Lanham Act: atribuciones falsas y alucinaciones
El caso introduce otra pieza que suele quedar fuera del debate sobre derechos de autor: la marca y la reputación. Britannica acusa a OpenAI de vulnerar la Lanham Act (una norma de marcas en EE. UU.) cuando el sistema genera errores —las conocidas alucinaciones— y los atribuye de forma incorrecta a la editorial.
Aquí la metáfora cotidiana es la del vecino que cuenta un rumor y remata con “lo dijo tal periódico”. El daño no está solo en el rumor; está en colgarle la autoría a una cabecera que vive de ser fiable. Según la demanda citada por TechCrunch, estas atribuciones erróneas pondrían en riesgo “el acceso público a información online de alta calidad y confiable”, porque erosionan la confianza en las fuentes que se esfuerzan por mantener estándares editoriales.
La discusión también es cultural: los modelos conversacionales tienden a sonar seguros incluso cuando se equivocan. Para un usuario, una respuesta fluida puede tener la apariencia de una enciclopedia; para un editor, esa apariencia es precisamente el valor de su marca, construido durante décadas.
El impacto económico: cuando la respuesta “sustituye” al contenido
Britannica sostiene que ChatGPT compite con los editores al ofrecer respuestas que actúan como sustitutos del contenido original, restando tráfico y, con él, ingresos. La denuncia, tal como la recoge TechCrunch, afirma que el chatbot “priva” de ingresos a los editores porque el usuario obtiene lo que busca sin visitar la fuente.
En términos prácticos, es como si una guía gastronómica trabajara años para describir la receta y, de pronto, un asistente te diera el plato ya emplatado en la puerta sin que el restaurante vea un euro. El debate no es sentimental; es estructural: si la economía que sostiene el periodismo, las enciclopedias y los diccionarios depende de visitas, suscripciones o licencias, cualquier herramienta que responda “por encima” puede tensar el sistema entero.
Esta idea conecta con una preocupación creciente en el sector: no solo quién “posee” los datos, sino quién se queda con el valor cuando esos datos se convierten en un producto conversacional.
Un frente judicial cada vez más amplio en torno a OpenAI
La demanda de Britannica no aparece en un vacío. TechCrunch enmarca este caso como parte de una oleada de litigios en la industria editorial. Entre los ejemplos citados figuran The New York Times, el grupo Ziff Davis (propietario de marcas como Mashable, CNET, IGN y PC Mag) y una batería de periódicos de Estados Unidos y Canadá, con nombres como Chicago Tribune, Denver Post, Sun Sentinel, Toronto Star y la Canadian Broadcasting Corporation.
El patrón es reconocible: empresas que producen contenido protegido consideran que los modelos se han beneficiado de ese trabajo sin licencia o sin compensación proporcional. Para OpenAI y el resto del sector, cada pleito es un capítulo más en una pregunta que todavía no tiene una respuesta definitiva: qué significa “uso justo” o “uso transformador” cuando el producto final no es una cita ni un resumen humano, sino una interfaz que compone texto bajo demanda.
El precedente que todos miran: el caso Anthropic y el juez Alsup
TechCrunch subraya que la jurisprudencia sólida sobre si entrenar un modelo con contenido protegido constituye infracción de copyright sigue siendo escasa. Aun así, menciona un episodio relevante: en un caso, Anthropic convenció al juez federal William Alsup de que usar contenido como datos de entrenamiento podía considerarse lo bastante transformador como para ser legal en ese contexto.
El matiz, siempre según el relato de TechCrunch, es que Alsup también habría señalado una conducta distinta como problemática: la descarga ilegal de millones de libros en lugar de pagarlos, algo que habría desembocado en un acuerdo colectivo de 1.500 millones de dólares para autores afectados. Esa separación entre “aprender de” y “obtener de forma ilícita” sugiere por qué estas batallas se vuelven tan técnicas: no basta con preguntar qué hace el modelo, también hay que mirar cómo se construyó el conjunto de datos y bajo qué condiciones.
Para el lector no especializado, puede ayudar pensarlo como dos puertas distintas a la misma biblioteca. Una puerta es la licencia, la compra o el permiso; la otra es entrar por la ventana. El juicio puede girar más sobre la puerta que sobre la lectura.
Qué puede cambiar para usuarios, plataformas y editores
Si algo deja clara la demanda de Britannica es que el conflicto ya no es solo “entrenamiento sí o no”, sino cómo se integran los contenidos en productos como ChatGPT, especialmente cuando intervienen mecanismos de RAG y cuando se juega con la atribución a marcas reconocidas. En la práctica, estos casos suelen empujar hacia acuerdos de licencia, modelos de reparto de ingresos, herramientas de atribución más precisas y barreras para evitar reproducciones literales.
Para el usuario, el resultado puede notarse en detalles: respuestas con citas más claras, fragmentos limitados, avisos sobre incertidumbre, o incluso la imposibilidad de acceder a ciertas fuentes desde la interfaz conversacional. Para los editores, la meta es doble: proteger su propiedad intelectual y preservar la sostenibilidad de producir información fiable. Para la industria de la IA, el desafío es construir productos útiles sin convertir la web en una mina de la que se extrae valor sin retorno.
TechCrunch señala que OpenAI no respondió a la solicitud de comentarios antes de la publicación, un silencio que deja el tablero abierto: la disputa se moverá en documentos judiciales, argumentos técnicos y, probablemente, en la negociación paralela que suele acompañar este tipo de enfrentamientos.
