La desaparición de los datos que alimentan la IA: Un problema en auge

Juan Diego Polo

hace 7 meses

Una ilustración minimalista y divertida muestra un brazo robótico intentando recolectar datos de varias ventanas cerradas en una pantalla de computadora. Las ventanas tienen símbolos de candados y cadenas, indicando acceso restringido. El fondo es simple con colores suaves y un diseño limpio.

En estos días, el panorama de la inteligencia artificial (IA) está cambiando rápidamente, y no siempre para mejor. Durante años, los desarrolladores de IA han dependido de vastos conjuntos de datos extraídos de internet para entrenar sus modelos. Sin embargo, la disponibilidad de estos datos está disminuyendo drásticamente. Un reciente estudio de la Data Provenance Initiative, liderado por el MIT, ha revelado una significativa reducción en el acceso a contenidos web utilizados para entrenar sistemas de IA.

Un Problema de Consentimiento

El estudio analizó 14,000 dominios web incluidos en tres conjuntos de datos comúnmente utilizados para entrenar IA: C4, RefinedWeb y Dolma. Descubrieron una «crisis emergente de consentimiento», ya que muchos editores y plataformas online han tomado medidas para impedir que sus datos sean recolectados. Se estima que el 5% de todos los datos y el 25% de los datos de mayor calidad han sido restringidos. Estas restricciones se implementan mediante el Protocolo de Exclusión de Robots, un método que permite a los propietarios de sitios web evitar que bots automatizados rastreen sus páginas usando un archivo llamado robots.txt.

El Impacto de las Restricciones

Este fenómeno no solo afecta a las grandes empresas de IA. También tiene repercusiones para investigadores, académicos y entidades sin fines de lucro que dependen de conjuntos de datos públicos. Por ejemplo, Common Crawl, un conjunto de datos que incluye miles de millones de páginas de contenido web y que es mantenido por una organización sin fines de lucro, ha sido citado en más de 10,000 estudios académicos. Con la reducción del acceso a estos datos, el trabajo de estas entidades se ve comprometido.

La Reacción de los Propietarios de Datos

No es sorprendente que los propietarios de datos estén reaccionando ante el uso de sus contenidos para entrenar sistemas de IA comerciales que, en ocasiones, amenazan sus medios de vida. Sitios como Reddit y StackOverflow han comenzado a cobrar a las empresas de IA por el acceso a sus datos. Otros han optado por bloquear los rastreadores web automatizados utilizados por empresas como OpenAI, Google y Anthropic.

Acuerdos y Demandas

Algunas empresas de IA han llegado a acuerdos con editores para acceder a sus contenidos, como OpenAI con The Associated Press y News Corp, el propietario de The Wall Street Journal. Sin embargo, también ha habido litigios, como la demanda de The New York Times contra OpenAI y Microsoft por infracción de derechos de autor, alegando el uso no autorizado de artículos de noticias para entrenar sus modelos.

La Alternativa de los Datos Sintéticos

Frente a esta «muro de datos», algunas empresas están explorando el uso de datos sintéticos, generados por sistemas de IA, para entrenar sus modelos. No obstante, muchos investigadores dudan de que los sistemas de IA actuales puedan generar datos sintéticos de alta calidad suficientes para reemplazar los datos creados por humanos.

Desafíos y Futuro

El uso de datos públicos por parte de las empresas de IA está protegido legalmente bajo el principio de uso justo, pero reunir nuevos datos se ha vuelto más complicado. Aunque algunos motores de búsqueda y empresas de IA cumplen voluntariamente con las restricciones de robots.txt, no todas lo hacen. Este es un desafío continuo, ya que la falta de cumplimiento puede llevar a conflictos legales y éticos.

En WWWhatsnew.com, hemos seguido de cerca estos desarrollos y su impacto en la industria tecnológica. La necesidad de nuevas herramientas que permitan a los propietarios de sitios web controlar de manera más precisa el uso de sus datos es más evidente que nunca. Por ejemplo, algunos sitios podrían estar dispuestos a permitir que una institución educativa use sus datos, pero no una gran empresa de IA con fines comerciales.

Al final del día, si las grandes compañías de IA siguen viendo internet como un buffet libre de datos, eventualmente se encontrarán con puertas cerradas. Es un recordatorio de que, en el vasto mundo digital, el respeto y la reciprocidad son esenciales para avanzar juntos.