El entrenamiento de modelos de inteligencia artificial ha sido un tema candente en los últimos años, especialmente cuando se trata de los datos utilizados para alimentar estos sistemas. Ahora, Meta está en el centro de una nueva controversia, ya que una demanda reciente sugiere que la compañía utilizó libros pirateados para entrenar sus modelos de IA.
Las acusaciones contra Meta
Según documentos judiciales recientemente revelados, Meta habría descargado más de 80 terabytes de libros piratas desde plataformas como Anna’s Archive, Z-Library y LibGen. Estos sitios son ampliamente conocidos por ofrecer acceso a material con derechos de autor de forma ilegal, lo que plantea serias dudas sobre la legalidad del entrenamiento de los modelos de IA de Meta.
En la demanda, se incluyen correos electrónicos internos en los que empleados de Meta discuten abiertamente sobre el uso de bases de datos de libros pirateados. Incluso se mencionan advertencias de algunos empleados sobre los riesgos legales de utilizar torrents para obtener estos archivos.
Evidencia y preocupaciones internas
Los correos electrónicos, revelados sin censura en un expediente judicial, contienen fragmentos que comprometen a la empresa. En uno de ellos, un ingeniero de investigación de Meta, Nikolay Bashlykov, advierte que usar torrents podría ser problemático legalmente debido a la naturaleza de la tecnología, que no solo permite descargar sino también compartir los archivos con otros usuarios.
A pesar de estas advertencias, la documentación indica que Meta habría seguido adelante con la descarga y distribución de contenido pirateado. De hecho, hay evidencia que sugiere que la actividad continuó hasta abril de 2024, mucho después de que los empleados expresaran preocupaciones sobre su legalidad.
Intentos de encubrimiento y repercusiones legales
Meta también está acusada de haber intentado ocultar su actividad, evitando el uso de direcciones IP directamente vinculadas a la empresa para descargar el contenido. Sin embargo, los documentos internos demuestran que la compañía sabía perfectamente la procedencia del material y, aun así, decidió utilizarlo para entrenar sus modelos de IA.
Estas revelaciones plantean una pregunta clave: ¿Cuánto sabía Mark Zuckerberg sobre esto? Si bien el CEO de Meta no ha comentado directamente sobre la situación, el caso podría sentar un precedente sobre la legalidad de los datos utilizados en el desarrollo de IA.
Impacto en el futuro del entrenamiento de IA
Desde WWWhatsnew creemos que esta situación podría tener repercusiones a largo plazo en la forma en que se entrenan los modelos de IA. Muchas empresas tecnológicas, incluyendo OpenAI y Google, han sido cuestionadas sobre el origen de los datos utilizados en sus modelos de lenguaje. Este caso podría generar regulaciones más estrictas sobre el uso de contenido protegido por derechos de autor en la inteligencia artificial.
Si se comprueba que Meta utilizó material pirateado para entrenar su IA, podría enfrentarse a multas millonarias y demandas adicionales de autores y editoriales afectadas. La industria editorial ya ha mostrado preocupación por la forma en que los modelos de lenguaje adquieren información y transforman el mercado de los libros.
El caso de Meta y el uso de libros pirateados para entrenar su IA podría convertirse en un punto de inflexión en el debate sobre la ética y la legalidad en la inteligencia artificial. A medida que la tecnología avanza, también lo hace la necesidad de crear regulaciones claras que protejan los derechos de autor y garanticen el uso responsable de los datos.
Seguiremos atentos a los desarrollos de este caso y a las posibles repercusiones que pueda tener en el futuro de la IA.