Meta admite haber usado libros con copyright para entrenar a su IA

Nueva controversia que pone en jaque a la industria tecnológica: el uso de material con derechos de autor en el entrenamiento de modelos de lenguaje por parte de grandes empresas como Meta. La admisión de Meta sobre el uso del dataset «Books3», que contiene decenas de miles de libros, para desarrollar sus modelos Llama 1 y Llama 2, ha levantado una ola de discusiones legales y éticas.

El investigador de IA, Shawn Presser, creó este monumental conjunto de datos en 2020, con la intención de proporcionar una fuente de datos más rica para mejorar los algoritmos de aprendizaje automático. Sin embargo, su uso por parte de Meta ha desencadenado un dilema crucial: ¿es ético y legal utilizar estos recursos sin compensar a los autores originales?

Características de Books3

Volumen de Datos: Books3 es un archivo masivo que contiene más de 195,000 libros en formato de texto plano. Esto equivale a casi 37 gigabytes (GB) de datos, lo que lo convierte en uno de los conjuntos de datos más grandes de su tipo.
Diversidad de Contenidos: El dataset incluye una amplia gama de géneros literarios y temas, abarcando desde literatura clásica hasta obras contemporáneas, textos técnicos, novelas, ensayos y más. Esta diversidad lo hace particularmente útil para entrenar modelos de IA que requieren comprensión y generación de lenguaje en múltiples contextos.
Formato de Texto Plano: Los libros en Books3 están en formato de texto plano, lo que facilita su procesamiento por algoritmos de aprendizaje automático. El texto plano es esencial para que los modelos de IA puedan «leer» y «entender» el contenido sin las complicaciones que podrían surgir con otros formatos más complejos.

Propósito de Books3

Mejorar Modelos de Lenguaje: El principal objetivo de Books3 es proporcionar una fuente de datos rica y diversa para entrenar modelos de lenguaje avanzados. Estos modelos son esenciales en una variedad de aplicaciones de IA, como asistentes virtuales, sistemas de traducción automática, herramientas de análisis de texto y más.
Investigación en IA: Books3 sirve como un recurso crucial para la comunidad científica y tecnológica, permitiendo a investigadores y desarrolladores experimentar y mejorar algoritmos de procesamiento del lenguaje. Su amplia base de datos proporciona un terreno fértil para investigaciones en comprensión y generación del lenguaje natural.
Desafíos Éticos y Legales: Aunque no fue un propósito original, el uso de Books3 ha planteado importantes cuestiones éticas y legales en relación con los derechos de autor. Este aspecto ha sido central en debates recientes sobre la responsabilidad de las empresas tecnológicas y los derechos de los creadores de contenido.

Meta reconoce abiertamente el uso de Books3, pero argumenta que este acto cae bajo las políticas de «uso justo», una doctrina legal que permite el uso limitado de material protegido sin autorización previa, especialmente cuando se usa para fines como la enseñanza o la investigación. Sin embargo, su negativa a ofrecer compensación monetaria a los autores demandantes ha agudizado el conflicto.

El caso de Meta no es aislado. Compañías como OpenAI y Microsoft también han sido acusadas de utilizar artículos protegidos por derechos de autor para entrenar sus modelos de IA. La posición de OpenAI, afirmando que es «imposible» entrenar modelos de IA sin material con derechos de autor, refleja una realidad compleja en la que la tecnología avanza más rápido que las leyes actuales.

Lo comentan con detalle en torrentfreak.com, donde tratan con frecuencia temas relacionadas con el copyright y sus violaciones.

Personalmente veo este caso como un punto de inflexión en el desarrollo de la inteligencia artificial. La resolución legal de estos desafíos podría redefinir cómo se realiza la investigación y el desarrollo de IA, equilibrando la necesidad de innovación con el respeto a los derechos de propiedad intelectual.