Reddit refuerza medidas para bloquear la explotación de datos por IA

Reddit ha anunciado que actualizará sus estándares web para bloquear la extracción automática de datos de su sitio. Esta decisión llega tras informes de que varias startups de inteligencia artificial estaban evadiendo las reglas para recopilar contenido sin permiso.

Contexto del Problema

En los últimos tiempos, empresas de inteligencia artificial han sido acusadas de plagio de contenido de editores para crear resúmenes generados por IA sin dar crédito ni solicitar permiso. Estas prácticas han levantado preocupaciones en la industria, llevando a plataformas como Reddit a tomar medidas más estrictas.

Actualización del Robots.txt

Reddit planea actualizar su Protocolo de Exclusión de Robots (robots.txt), un estándar ampliamente aceptado que determina qué partes de un sitio pueden ser rastreadas. Además, mantendrá la limitación de tasa, una técnica que controla la cantidad de solicitudes de una entidad específica, y bloqueará bots y rastreadores desconocidos.

Impacto y Beneficiarios

Pese a las nuevas restricciones, Reddit aseguró que investigadores y organizaciones como Internet Archive continuarán teniendo acceso a su contenido para uso no comercial. Esta distinción es crucial para preservar el acceso a la información para propósitos educativos y de investigación.

Los Desafíos de la Extracción de Datos

La actualización de robots.txt se ha convertido en una herramienta clave para que los editores eviten que las empresas tecnológicas utilicen su contenido gratuitamente para entrenar algoritmos de IA y crear resúmenes en respuesta a consultas de búsqueda.

Casos Recientes

La startup de búsqueda de IA Perplexity fue acusada recientemente de evadir los esfuerzos para bloquear su rastreador web mediante robots.txt, según una investigación de Wired. Además, el editor de medios comerciales Forbes acusó a Perplexity de plagiar sus historias investigativas para uso en sistemas de IA generativa.

Conclusión

Reddit está tomando medidas significativas para proteger su contenido del data scraping no autorizado, al tiempo que mantiene el acceso para usos no comerciales y de investigación. Esta actualización es un paso crucial en la lucha contra el uso indebido de contenido por parte de empresas de inteligencia artificial.