La amenaza silenciosa que puede alterar los modelos de IA con solo 250 documentos

En el entrenamiento de los modelos de lenguaje grande (LLMs), se tiende a pensar que la calidad y la cantidad masiva de datos son garantes de seguridad. Pero un reciente estudio de Anthropic, en colaboración con el UK AI Safety Institute y el Alan Turing Institute, ha puesto esta idea patas arriba. La investigación ha demostrado que no hace falta contaminar grandes cantidades de datos para comprometer un modelo: basta con apenas 250 documentos maliciosos para insertar una puerta trasera o «backdoor» funcional en modelos de hasta 13.000 millones de parámetros.

Esto no es una simple advertencia teórica. La investigación señala que incluso los modelos entrenados con datasets optimizados y gigantescos, como los basados en el enfoque Chinchilla-optimal, son vulnerables si se introduce un pequeño conjunto de entradas cuidadosamente diseñadas. Es como si una sola gota de tinta bastara para enturbiar un balde entero de agua. Continúa leyendo «La amenaza silenciosa que puede alterar los modelos de IA con solo 250 documentos»