El impacto de los bots de OpenAI: cuando la IA pone en jaque a los pequeños negocios

Imagina que tienes una pequeña empresa online que has construido con esfuerzo durante más de una década. Todo marcha bien hasta que, de un momento a otro, tu sitio web colapsa. No se trata de un ataque de hackers, sino de algo inesperado: un bot de inteligencia artificial que ha inundado tu servidor con miles de solicitudes por minuto, dejándolo fuera de servicio. Esto es exactamente lo que le ocurrió a Triplegangers, una compañía especializada en crear “dobles digitales humanos”.

¿Qué es Triplegangers?

Triplegangers es una pequeña empresa con sede en Ucrania y presencia legal en Estados Unidos. Esta organización, conformada por tan solo siete empleados, ha desarrollado lo que podría ser la base de datos más grande de archivos 3D basados en personas reales. Sus productos incluyen modelos tridimensionales detallados, fotografías y características etiquetadas como etnicidad, tipo de piel y tatuajes. Este material es invaluable para artistas 3D, desarrolladores de videojuegos y cualquier profesional que busque recrear humanos de forma digital.

El sitio web de Triplegangers es su principal fuente de ingresos, ofreciendo más de 65,000 productos que incluyen múltiples imágenes por cada archivo. Proteger este recurso es esencial para la empresa, pero lo ocurrido con los bots de OpenAI demostró lo vulnerable que puede ser un negocio online.

El colapso: el ataque inesperado de GPTBot

Todo comenzó un sábado, cuando el CEO de Triplegangers, Oleksandr Tomchuk, notó que su sitio web estaba completamente fuera de servicio. Al principio, pensó que se trataba de un ataque DDoS (denegación de servicio). Sin embargo, rápidamente descubrió que el responsable era GPTBot, un bot de OpenAI diseñado para recopilar información de sitios web y entrenar sus modelos de inteligencia artificial.

Lo que hizo este bot fue abrumador: envió decenas de miles de solicitudes al servidor, intentando descargar cada una de las páginas del sitio junto con las fotos detalladas y descripciones de los productos. Según los registros, OpenAI utilizó más de 600 direcciones IP para realizar esta tarea, saturando los recursos de la compañía y dejándola temporalmente fuera de línea.

Robots.txt: la primera línea de defensa

En su defensa, OpenAI afirma que sus bots respetan el archivo robots.txt, una configuración que permite a los propietarios de sitios web restringir el acceso de rastreadores. Sin embargo, el archivo de Triplegangers no estaba configurado correctamente en ese momento, lo que permitió que GPTBot actuara libremente.

El problema aquí es doble: por un lado, el sistema de exclusión de robots requiere que los propietarios de los sitios tengan un conocimiento técnico específico para protegerse. Por otro lado, la responsabilidad recae en el negocio para evitar que los bots accedan a su contenido, en lugar de que las empresas de IA soliciten permiso de antemano. En palabras de Tomchuk, esto crea un vacío legal y ético donde el control queda en manos de los bots.

El costo oculto del scraping

La situación no solo dejó a Triplegangers sin servicio durante horas, sino que también generó un gasto adicional. Tomchuk anticipa que su próxima factura de Amazon Web Services (AWS) será considerablemente más alta debido al exceso de actividad causado por el bot. Este es un problema que no solo afecta a esta empresa; muchas pequeñas y medianas empresas han reportado daños similares.

Un estudio reciente de DoubleVerify revela que el tráfico de bots, incluidos los rastreadores de IA, creció un 86% en 2024, causando un aumento significativo en el tráfico no válido para los sitios web. La mayoría de los propietarios ni siquiera son conscientes de que sus sitios han sido objeto de scraping hasta que enfrentan problemas como los de Triplegangers.

Soluciones temporales: una batalla constante

Para proteger su negocio, Triplegangers implementó varias medidas:

Configuró correctamente su archivo robots.txt para bloquear el acceso a GPTBot y otros rastreadores.
Contrató los servicios de Cloudflare para identificar y detener el acceso de bots no deseados, incluyendo crawlers de otras empresas de IA como Bytespider y Barkrowler.
Monitorea diariamente los registros de actividad del servidor para detectar cualquier intento de scraping.

Sin embargo, estas soluciones no son definitivas. La configuración de robots.txt no garantiza que todos los bots respeten las restricciones, y el monitoreo constante consume tiempo y recursos valiosos.

La falta de transparencia de OpenAI

Uno de los aspectos más preocupantes de esta situación es la falta de mecanismos claros para que los propietarios de sitios web puedan interactuar con OpenAI. Tomchuk afirma que no ha encontrado forma de comunicarse con la empresa para solicitar que eliminen el contenido obtenido de su sitio.

OpenAI también ha retrasado la implementación de una herramienta prometida que permitiría a los propietarios optar por no ser incluidos en sus sistemas. Esto deja a empresas como Triplegangers en una posición de desventaja, especialmente cuando trabajan con material que implica derechos de autor y regulaciones como el GDPR europeo.

¿Qué podemos aprender de este caso?

Desde WWWhatsnew.com, creemos que este caso subraya la necesidad urgente de regulaciones más claras en el uso de la inteligencia artificial y los bots de rastreo. Las pequeñas empresas no pueden competir contra grandes compañías tecnológicas que aprovechan vacíos legales para recopilar datos sin permiso.

En mi opinión, también es fundamental que los propietarios de sitios web tomen medidas proactivas para proteger su contenido, aunque esto implique costos adicionales. Al mismo tiempo, debería haber un esfuerzo colectivo para exigir más transparencia y responsabilidad a las empresas de IA.