Cuando una IA intenta “copiar” a otra: la alerta de Anthropic sobre ataques de destilación contra Claude

Publicado el

Ataques de destilación en IA (1)

En un comunicado fechado el 23 de febrero de 2026, Anthropic afirma haber detectado campañas “a escala industrial” para extraer capacidades de Claude, su familia de modelos de IA, mediante una técnica conocida como destilación. La compañía atribuye esas campañas a tres laboratorios: DeepSeek, Moonshot AI (conocida por sus modelos Kimi) y MiniMax. Según sus datos, el volumen habría sido enorme: más de 16 millones de intercambios con Claude generados a través de unas 24.000 cuentas fraudulentas, violando tanto los términos de servicio como restricciones regionales de acceso.

Lo relevante no es solo la cifra, sino el patrón: Anthropic describe un uso coordinado, repetitivo y orientado a capturar justo aquello que diferencia a sus modelos, como el razonamiento agentivo, el uso de herramientas y el código. En otras palabras, no se trataría de “usar” un modelo para tareas reales, sino de exprimirlo como si fuera una máquina de fabricar datos de entrenamiento.

Destilación: un método legítimo que también puede convertirse en un atajo ilícito

La palabra destilación suena a laboratorio de química, y la metáfora encaja. Igual que se destila un líquido para obtener una versión más concentrada, en IA se puede “destilar” un modelo grande en otro más pequeño: el modelo menos capaz aprende a imitar las respuestas del más fuerte. Esto es normal y útil cuando lo hace el mismo equipo que creó el modelo original, por ejemplo para ofrecer versiones más baratas y rápidas sin partir de cero.

El problema aparece cuando la destilación se usa como atajo competitivo. Anthropic sostiene que un rival puede conseguir, en menos tiempo y con menor coste, una parte sustancial de las habilidades de un modelo puntero entrenando sobre sus salidas. Sería como si un restaurante lograra replicar los platos estrella de otro no probándolos una vez, sino encargando miles de pedidos automatizados, anotando cada ingrediente “probable” y entrenando a su cocina para reproducirlos en masa.

El riesgo oculto: potencia sin frenos y sin cinturón de seguridad

Anthropic enmarca el asunto como algo que va más allá de la competencia comercial: habla de seguridad nacional. Su argumento es directo: los modelos avanzados de empresas estadounidenses incorporan salvaguardas para evitar usos peligrosos, como apoyo a actividades maliciosas en ciberseguridad o incluso escenarios vinculados a biología. Si un tercero destila capacidades, es poco probable que esas protecciones se trasladen intactas, o que se implementen con el mismo rigor.

La imagen cotidiana aquí es la de un coche muy potente sin frenos ABS ni airbags. Puede moverse rápido, sí, pero cualquier error se vuelve más grave. Anthropic advierte que, si estos modelos “destilados” acaban integrándose en sistemas militares, de inteligencia o de vigilancia, el impacto potencial crece. Y si se publican como código abierto, el efecto multiplicador es evidente: la capacidad se dispersa sin un “propietario” claro que responda por controles, monitorización o parches.

Controles de exportación y distilación: la grieta por la que se cuela el agua

Otro punto central del texto es la relación con los controles de exportación. Anthropic dice apoyar este tipo de medidas para mantener la ventaja tecnológica de Estados Unidos en IA. En su lectura, los ataques de destilación socavan ese objetivo porque permiten que laboratorios extranjeros “recorten distancias” no tanto por innovación independiente, sino por extracción sistemática de capacidades desde modelos estadounidenses.

Hay un matiz interesante: la compañía afirma que, sin visibilidad sobre estas campañas, los avances rápidos de ciertos laboratorios pueden interpretarse como prueba de que los controles no sirven. Su tesis es que parte de esas mejoras se apoya en capacidades extraídas y que, para ejecutar la destilación a gran escala, también se necesita infraestructura y acceso a chips avanzados. Dicho de otra forma, la destilación no sería una escapatoria “gratis”: requiere músculo computacional para industrializar el proceso. En esa lógica, limitar chips no solo frena el entrenamiento directo, también limita cuán grande puede ser la operación de extracción.

Tres campañas, un mismo objetivo: capturar lo que hace diferente a Claude

Anthropic describe un “manual” común: cuentas falsas, servicios de proxy para saltarse restricciones y un volumen de consultas con estructuras repetidas, diseñadas para obtener respuestas útiles como datos de entrenamiento. A partir de correlaciones de IP, metadatos de solicitudes e indicadores de infraestructura, afirma haber atribuido cada campaña con “alta confianza”, e incluso menciona corroboración de socios del sector que habrían observado comportamientos similares en otras plataformas.

En el caso de DeepSeek, el comunicado habla de más de 150.000 intercambios. La operación habría buscado ampliar capacidades de razonamiento en tareas diversas, usar a Claude como si fuera un “evaluador” con rúbricas (algo muy alineado con el entrenamiento por refuerzo), y generar alternativas “seguras para censura” ante consultas políticamente sensibles. Anthropic menciona un detalle especialmente delicado: peticiones orientadas a que Claude explique paso a paso el “razonamiento interno” detrás de una respuesta ya completada, con el fin de producir datos tipo chain-of-thought a gran escala.

Para Moonshot AI, la cifra sube a más de 3,4 millones de intercambios. Aquí el foco habría sido el razonamiento agentivo, el uso de herramientas, el código y el análisis de datos, con interés explícito en desarrollar agentes de uso de ordenador y visión por computador. Anthropic describe una táctica de dispersión: cientos de cuentas fraudulentas y múltiples vías de acceso para que el conjunto se pareciera menos a una campaña coordinada. También señala una fase posterior más “quirúrgica”, intentando extraer y reconstruir trazas de razonamiento.

Con MiniMax, el volumen sería el mayor: más de 13 millones de intercambios centrados en programación agentiva y orquestación de herramientas. Anthropic afirma que detectó esta campaña mientras aún estaba activa, antes de que el laboratorio lanzara el modelo que estaría entrenando, lo que le habría permitido observar el ciclo completo, desde generación de datos hasta lanzamiento. Un detalle que ilustra la dinámica competitiva: cuando Anthropic publicó un nuevo modelo durante la campaña, MiniMax habría pivotado en 24 horas y redirigido cerca de la mitad del tráfico para capturar capacidades del sistema más reciente.

La “hidra” de cuentas: proxies, reventa de acceso y evasión a escala

Anthropic añade contexto sobre cómo se consigue el acceso. Indica que, por motivos de seguridad y cumplimiento, no ofrece acceso comercial a Claude en China ni a ciertas filiales fuera del país. Según su relato, los laboratorios recurren a servicios comerciales de proxy que revenden acceso a modelos punteros. A estas redes las describe como arquitecturas tipo “hydra cluster”: enjambres de cuentas falsas distribuyendo tráfico entre su API y plataformas cloud de terceros.

La metáfora de la hidra funciona porque no hay un “cuello” único que cortar. Si se cierra una cuenta, aparece otra. Anthropic menciona un caso en el que una sola red gestionaba más de 20.000 cuentas fraudulentas al mismo tiempo y mezclaba tráfico de destilación con solicitudes de clientes legítimos para dificultar la detección. Es parecido a esconderse en un centro comercial: no hace falta correr más, basta con mezclarse con la multitud.

Qué delata a un ataque de destilación: no es una pregunta, es el patrón

Un punto práctico del comunicado es cómo distinguir un abuso de un uso normal. Anthropic sugiere que una solicitud individual puede parecer inocente, incluso profesional. Lo que cambia todo es la repetición masiva, la concentración en pocas capacidades “valiosas” y la estructura altamente estandarizada distribuida en cientos de cuentas coordinadas. Es el equivalente a recibir una sola llamada de un número desconocido frente a recibir miles con el mismo guion: lo segundo ya no es casualidad, es campaña.

Según Anthropic, los objetivos típicos son dos: recolectar respuestas de alta calidad para entrenar directamente un modelo, o generar grandes volúmenes de tareas para ejecutar entrenamiento por refuerzo. En ambos casos, la extracción se optimiza como un proceso industrial, no como interacción humana.

La respuesta de Anthropic: detección, intercambio de señales y barreras sin romper el producto

La compañía afirma que está invirtiendo en defensas para que estos ataques de destilación sean más difíciles y más visibles. Describe sistemas de clasificación y “huellas” de comportamiento para identificar patrones anómalos en el tráfico de API, incluyendo intentos de elicitar chain-of-thought para crear datos de razonamiento. Habla también de herramientas para detectar coordinación entre grandes cantidades de cuentas, de un esfuerzo de intercambio de indicadores técnicos con otros laboratorios, proveedores cloud y autoridades relevantes, y de un refuerzo en la verificación de vías que se estarían explotando con frecuencia, como cuentas educativas, programas de investigación en seguridad y organizaciones emergentes.

El último bloque es quizá el más delicado desde el punto de vista de producto: Anthropic dice estar trabajando en contramedidas a nivel de Producto, API y modelo para reducir la utilidad de sus salidas en destilación ilícita sin empeorar la experiencia de clientes legítimos. Es una tensión clásica: cerrar puertas a quien abusa sin poner una cerradura que complique a quien vive dentro.