Adobe se enfrenta a una demanda colectiva por presunto uso indebido de libros en el entrenamiento de IA

Publicado el

ia_demanda

La integración de la inteligencia artificial generativa en las plataformas tecnológicas ha transformado el panorama del software creativo, pero también ha abierto un campo minado de desafíos legales. Adobe, una de las empresas más influyentes en el ámbito del diseño y la edición digital, ahora se ve envuelta en una controversia legal que pone el foco sobre cómo se entrenan los modelos de lenguaje y qué materiales se utilizan para ello.

La escritora Elizabeth Lyon, conocida por sus manuales sobre escritura de no ficción, ha presentado una demanda colectiva contra Adobe alegando que la empresa habría utilizado versiones pirateadas de sus libros —y de otros autores— para entrenar uno de sus modelos de lenguaje: SlimLM. Este modelo es parte de una serie desarrollada para tareas de asistencia documental, especialmente optimizado para dispositivos móviles.

SlimLM y los orígenes del conflicto

Adobe ha indicado que su modelo SlimLM fue entrenado con un conjunto de datos llamado SlimPajama-627B, descrito como un dataset deduplicado y de código abierto. Sin embargo, aquí es donde empieza el conflicto. SlimPajama, según la demanda, sería una versión manipulada de RedPajama, un dataset que a su vez incluye el polémico Books3, una recopilación masiva de más de 190.000 libros.

Books3 ha sido el centro de múltiples disputas legales por contener obras protegidas por derechos de autor sin el consentimiento de sus creadores. Aunque se presenta como un recurso valioso para entrenar modelos lingüísticos, su procedencia ha levantado serias preocupaciones éticas y jurídicas. En este contexto, la demanda sostiene que SlimPajama hereda los problemas legales de RedPajama al contener, directa o indirectamente, ese mismo material.

Un patrón repetido en la industria tecnológica

Adobe no es la única empresa que ha sido señalada por prácticas similares. En los últimos meses, otras grandes tecnológicas como Apple y Salesforce también han sido demandadas por presuntamente utilizar datos con derechos de autor en el entrenamiento de sus sistemas de inteligencia artificial. En el caso de Apple, se alega que su modelo Apple Intelligence fue entrenado con contenido protegido, mientras que Salesforce enfrenta acusaciones similares por su vínculo con RedPajama.

Estos casos muestran una tendencia en la industria: a medida que se impulsa la innovación en inteligencia artificial, algunas compañías parecen estar cruzando líneas legales difusas con tal de obtener datasets lo suficientemente amplios como para entrenar modelos eficaces. La amplitud y diversidad de datos es clave para la calidad de los modelos, pero esto no puede lograrse a costa de los derechos de autores y creadores.

El precedente de Anthropic y el futuro legal de la IA

Un ejemplo que ha marcado un hito en este debate es el caso de Anthropic, la empresa detrás del chatbot Claude. En septiembre, la compañía acordó pagar 1.500 millones de dólares como parte de un acuerdo con varios autores que la demandaron por haber usado versiones piratas de sus obras. Este acuerdo no solo representa una cifra significativa, sino que también podría sentar un precedente para futuras resoluciones judiciales.

El caso Anthropic demuestra que las disputas sobre el uso de obras protegidas para entrenar modelos de IA están siendo tomadas en serio por el sistema judicial. Y aunque muchas de estas tecnologías aún navegan en un entorno regulatorio poco claro, cada sentencia va delineando las reglas del juego con mayor nitidez.

Lo que está en juego para Adobe y los creadores

Para Adobe, el impacto de esta demanda podría ser doble. Por un lado, la empresa se enfrenta a una posible sanción económica y al cuestionamiento de sus prácticas de desarrollo. Por otro, existe el riesgo reputacional, especialmente en un momento en que muchos creadores ya expresan escepticismo sobre el uso de la inteligencia artificial en herramientas creativas. Adobe ha intentado posicionarse como una compañía que respeta los derechos de los artistas, pero este caso podría minar esa imagen si se comprueba que utilizó contenido sin autorización.

Desde la perspectiva de los autores, el conflicto va mucho más allá de una compensación económica. Se trata del reconocimiento de su trabajo y de establecer límites claros sobre cómo pueden o no ser usados sus textos en un contexto tecnológico. Muchos escritores, como Lyon, ven en estas demandas una forma de defender la integridad de su obra frente a una industria que muchas veces prioriza la escala sobre la ética.

Necesidad de regulación y transparencia

Todo este panorama pone sobre la mesa la urgencia de contar con normativas claras y actualizadas que regulen el uso de contenidos protegidos en el entrenamiento de modelos de IA. Al igual que en otras áreas donde la tecnología avanza más rápido que la legislación, el vacío legal ha generado un terreno fértil para prácticas poco transparentes.

Las empresas tecnológicas deberían adoptar políticas más rigurosas para asegurar que los datasets utilizados estén libres de materiales protegidos o que, al menos, exista un mecanismo de compensación y acreditación para los autores. La transparencia en la procedencia de los datos y en los métodos de entrenamiento debería ser la norma, no la excepción.