Reddit demanda a Perplexity: el conflicto por el uso indebido de datos para entrenar IA

La reciente demanda de Reddit contra la startup Perplexity marca un nuevo episodio en la creciente tensión entre plataformas digitales y empresas de inteligencia artificial. La acusación es clara: Reddit sostiene que Perplexity, junto con otras tres compañías, accedió sin permiso a su enorme base de datos para alimentar su motor de respuestas basado en IA, infringiendo sus medidas de protección.

No se trata del primer pleito legal en esta línea. Reddit ya había iniciado un proceso similar contra Anthropic, otro actor destacado en el desarrollo de modelos de lenguaje, que aún está en curso. La raíz del problema es cada vez más común: el uso masivo y no autorizado de contenidos protegidos por derechos de autor para el entrenamiento de sistemas de IA.

Qué está en juego para Reddit

Reddit se ha convertido en una fuente valiosísima para los desarrolladores de IA. Sus millones de conversaciones organizadas en subreddits temáticos ofrecen una mina de oro de interacciones humanas, preguntas frecuentes, debates técnicos y opiniones personales. Este tipo de contenido es justo lo que buscan los modelos de lenguaje para mejorar su capacidad de generar respuestas naturales y útiles.

Sin embargo, para Reddit, este uso no autorizado representa una amenaza directa a su modelo de negocio. Desde hace tiempo, la empresa ha comenzado a licenciar oficialmente sus datos a compañías como Google y OpenAI, lo cual supone una fuente potencial de ingresos importante. Por ello, cuando terceros como Perplexity acceden a sus contenidos sin pagar por ese uso, Reddit lo interpreta como una forma de competencia desleal y apropiación indebida.

Los acusados en el caso

Según la demanda presentada en un tribunal federal de Nueva York, Perplexity no actuó sola. Reddit identifica también a tres empresas involucradas en el proceso de scraping (extracción automática de datos): Oxylabs (con sede en Lituania), AWMProxy (basada en Rusia) y SerpApi, una firma ubicada en Texas. Estas compañías habrían accedido a miles de millones de resultados de búsqueda en Reddit para luego transferir esa información a Perplexity.

Lo más llamativo es que, tras recibir una carta de cese y desistimiento por parte de Reddit en 2024, lejos de disminuir sus actividades, Perplexity multiplicó por 40 las citas a Reddit en su motor de respuestas, lo que Reddit considera una provocación directa.

Perplexity se defiende

En respuesta, Perplexity ha declarado que su enfoque sigue siendo “responsable y basado en hechos”, negando cualquier conducta inapropiada. Defienden que su sistema está diseñado para beneficiar al interés público, aunque no aclaran si cuentan con acuerdos de licencia para utilizar contenido de terceros.

Por su parte, SerpApi también ha rechazado las acusaciones y asegura que defenderá su posición en los tribunales. Oxylabs, en un comunicado, afirmó sentirse “sorprendida y decepcionada” por la demanda, y expresó que Reddit no intentó ningún contacto directo antes de proceder legalmente. AWMProxy, en cambio, no ha emitido comentarios públicos.

La industria de la IA frente a los derechos de autor

Este conflicto no es un caso aislado. En los últimos años, medios de comunicación, plataformas digitales y creadores independientes han comenzado a reclamar un mayor control sobre cómo se utilizan sus contenidos en el contexto de la inteligencia artificial.

A medida que los sistemas de IA necesitan más y más datos para entrenarse, las empresas desarrolladoras han recurrido a todo tipo de fuentes disponibles en línea. Este fenómeno ha dado origen a lo que algunos expertos denominan una economía del “lavado de datos”, donde se obtienen contenidos de manera poco clara, a veces bordeando la ilegalidad, y luego se procesan para entrenar modelos de alto rendimiento.

Este “lavado de datos” genera múltiples dilemas éticos y legales. ¿Puede una empresa utilizar datos públicos si están protegidos por copyright? ¿Hasta qué punto se considera una cita válida dentro de un motor de respuestas automático? ¿Y cómo se reparte el valor económico derivado del contenido generado por usuarios anónimos?

El precedente que Reddit quiere sentar

Al avanzar con esta demanda, Reddit no solo busca compensaciones económicas, sino un precedente legal que limite el uso no autorizado de sus datos. Si el tribunal falla a su favor, el impacto podría ser significativo para muchas startups de IA que actualmente entrenan sus modelos con contenido extraído de foros, redes sociales y blogs sin pagar por ello.

Reddit también envía un mensaje claro: su contenido tiene valor, y ese valor debe respetarse. Esto se vuelve especialmente importante en un contexto donde la compañía cotiza en bolsa y está bajo presión para diversificar sus ingresos.

Qué puede cambiar tras esta demanda

Si Reddit logra una victoria legal, podríamos estar ante un cambio importante en las prácticas de entrenamiento de IA. Las empresas desarrolladoras se verían obligadas a establecer acuerdos comerciales más transparentes con los propietarios del contenido, o buscar fuentes de datos alternativas que no infrinjan derechos.

Del mismo modo, podríamos ver surgir un nuevo modelo de negocio en torno al licenciamiento de datos para IA, algo que ya está empezando a perfilarse. Esto podría beneficiar tanto a las plataformas como a los usuarios que generan el contenido, siempre que existan mecanismos de reparto justo.

El caso también podría llevar a una revisión más amplia de las leyes sobre scraping y copyright, especialmente en lo que respecta a los usos que se hacen del contenido público en contextos automatizados.