system card | WWWhat's new

Durante años, la inyección de prompts ha sido ese problema incómodo que todo el mundo conoce y casi nadie cuantifica. Para los equipos de seguridad, era como hablar de goteras sin poder medir cuánta agua entra: se intuía el riesgo, se aplicaban parches, se revisaban buenas prácticas, pero faltaba una métrica que permitiera comparar proveedores con algo más que promesas.

Eso es lo que Anthropic intenta cambiar con la publicación de una system card extensa (212 páginas, fechada el 5 de febrero) en la que desglosa tasas de éxito de ataques de inyección de prompts según el “tipo de superficie” del agente, el número de intentos y si se activan o no salvaguardas. La idea clave es simple y potente: si un ataque escala con persistencia, el riesgo real no se entiende mirando un único intento, igual que no se evalúa la resistencia de una cerradura probándola una sola vez. Continúa leyendo «Anthropic pone números al riesgo de la inyección de prompts: lo que cambia cuando la seguridad deja de ser un eslogan»