Qué es el envenenamiento de imágenes de la Inteligencia Artificial

Juan Diego Polo

hace 1 año

Los modelos generativos de texto a imagen están en todas partes, desde la publicidad hasta la moda y el arte. Pero un nuevo estudio revela que podrían ser más vulnerables de lo que pensamos.

¿Qué son los ataques de envenenamiento?

Los ataques de envenenamiento en aprendizaje automático son una forma de manipulación maliciosa que tiene como objetivo alterar el comportamiento de un modelo de inteligencia artificial. Estos ataques se llevan a cabo durante la fase de entrenamiento del modelo, donde se introducen datos manipulados o «envenenados» en el conjunto de datos de entrenamiento. El objetivo es que el modelo aprenda de estos datos erróneos y, en última instancia, tome decisiones incorrectas o realice acciones no deseadas cuando se le presente una consulta específica.

Ejemplo 1: Falsificación de Imágenes

Imaginemos un modelo de aprendizaje automático diseñado para identificar señales de tráfico. Si un atacante introduce imágenes de una señal de «Stop» alteradas para que parezcan una señal de «Ceda el Paso», el modelo podría aprender incorrectamente y, en el futuro, identificar erróneamente las señales de «Stop» como señales de «Ceda el Paso». Esto podría tener graves implicaciones en aplicaciones de conducción autónoma.

Ejemplo 2: Manipulación de Reseñas

Consideremos un modelo de IA que se utiliza para filtrar reseñas en línea y destacar las más útiles o relevantes. Un atacante podría envenenar el modelo introduciendo reseñas falsas con un lenguaje y puntuaciones específicas. Como resultado, el modelo podría empezar a destacar estas reseñas falsas, afectando la percepción del público sobre un producto o servicio.

Ejemplo 3: Sistemas de Recomendación

En el caso de un sistema de recomendación de películas, un atacante podría envenenar el modelo para que recomiende una película específica a todos los usuarios, independientemente de sus gustos o historial de visualización. Esto podría ser utilizado para manipular las métricas de popularidad de una película o incluso para fines de propaganda.

Cómo se envenena una imagen

El proceso de envenenar una imagen para engañar a un modelo de inteligencia artificial es un ejercicio de manipulación cuidadosa y precisa. Aquí se detallan los pasos generales que un atacante podría seguir:

Paso 1: Identificación del Objetivo

El primer paso es identificar qué aspecto del modelo se quiere manipular. Esto podría ser, por ejemplo, confundir un sistema de reconocimiento facial o alterar la forma en que un modelo de IA identifica objetos en imágenes.

Paso 2: Recopilación de Datos

El atacante necesita acceder a un conjunto de datos que sea similar al que se utilizó para entrenar el modelo objetivo. Esto es crucial para que las imágenes envenenadas sean efectivas.

Paso 3: Modificación de la Imagen

Aquí es donde realmente se lleva a cabo el «envenenamiento». El atacante altera las imágenes de formas que pueden ser imperceptibles para el ojo humano pero significativas para el modelo. Esto podría hacerse mediante técnicas como la superposición de patrones de ruido, la alteración de píxeles específicos o la adición de elementos visuales que confundan al modelo.

Imaginemos un sistema de seguridad que utiliza IA para identificar armas en las imágenes de las cámaras de seguridad. Un atacante podría modificar una imagen de una persona sosteniendo una arma de tal manera que la IA la identifique como un objeto inofensivo, como un paraguas.

Paso 4: Inserción en el Conjunto de Datos

Las imágenes envenenadas se insertan luego en el conjunto de datos que se utilizará para entrenar o reentrenar el modelo. Esto podría hacerse de varias maneras, dependiendo de cómo se acceda al modelo y a sus datos de entrenamiento.

Paso 5: Verificación

Una vez que el modelo ha sido entrenado con los datos envenenados, el atacante verifica si el ataque ha tenido éxito probando el modelo con nuevas imágenes que deberían haber sido identificadas correctamente.

Paso 6: Despliegue

Si la verificación es exitosa, el modelo envenenado se despliega, ya sea reemplazando al modelo original o siendo utilizado en un nuevo entorno donde llevará a cabo las tareas para las que fue diseñado, pero con el comportamiento alterado.

Este proceso demuestra que el envenenamiento de imágenes para engañar a la IA es una tarea compleja que requiere un conocimiento profundo tanto del modelo objetivo como de las técnicas de aprendizaje automático. Es un área de preocupación creciente en el campo de la seguridad de la IA, especialmente dado el uso cada vez más generalizado de modelos de aprendizaje automático en aplicaciones críticas.

Nightshade

Aquí es donde entra Nightshade, un tipo de ataque específico de indicaciones que es tanto eficiente como sigiloso. Nightshade puede hacer que un modelo generativo responda a la indicación «gato» mostrando una imagen de un perro, todo esto sin ser detectado. Estará incluido dentro de la herramienta glaze, por lo que será fácil de usar para cualquiera.

Además de para el uso malicioso de los ejemplos indicados antes, también es usado por artistas que no quieren que sus trabajos se usen para entrenar modelos de IA, envenenan sus propias obras para que la IA no sea capaz de conseguir información útil sin permiso, algo que tiene bastante sentido.

El estudio también destaca un problema fundamental: la dispersión de datos. Aunque estos modelos se entrenan con millones de imágenes, la cantidad de datos para un tema específico es sorprendentemente baja. Esto los hace especialmente vulnerables a ataques.

Nightshade no solo es un problema de seguridad, sino también una cuestión ética. Podría usarse para proteger la propiedad intelectual, pero también podría ser mal utilizado para fines nefastos.

El estudio nos obliga a reconsiderar cuán seguros son realmente estos modelos. La pregunta es, ¿está la industria preparada para enfrentar estos nuevos tipos de ataques y sus implicaciones éticas?