Cómo la inteligencia artificial «ve» las imágenes y por qué a veces se confunde

Un nuevo estudio revela cómo los sistemas de inteligencia artificial (IA) procesan las imágenes y por qué a veces cometen errores sorprendentes, como clasificar una imagen de un astronauta como una pala.

La inteligencia artificial ha demostrado ser capaz de superar a los humanos en algunas tareas visuales, como el reconocimiento facial. Sin embargo, también comete errores flagrantes, como confundir una imagen de un astronauta con una pala. Investigadores de la Universidad Brown están trabajando para comprender mejor tanto el funcionamiento de los sistemas de IA como el del cerebro humano en relación con la visión. Han desarrollado una herramienta llamada CRAFT (Concept Recursive Activation FacTorization for Explainability) que permite desentrañar el funcionamiento interno de las redes neuronales profundas y entender las estrategias que utilizan para procesar las imágenes.

Cómo funciona la IA en el procesamiento de imágenes

La IA utiliza redes neuronales profundas, que se entrenan con algoritmos de aprendizaje a partir de conjuntos masivos de datos, como ImageNet, que contiene más de un millón de imágenes organizadas en miles de categorías de objetos. Durante el entrenamiento, se alimenta a los sistemas de IA con datos, pero no se les indica cómo procesar las imágenes ni qué información extraer de ellas para clasificarlas. Los sistemas de IA descubren sus propias estrategias de procesamiento y luego los científicos evalúan su precisión en la clasificación de las imágenes.

La herramienta CRAFT y cómo revela la forma en que la IA «ve» las imágenes

Los investigadores de Brown, en colaboración con el Instituto de Inteligencia Artificial y Natural de Toulouse, desarrollaron CRAFT, una herramienta que permite visualizar las representaciones visuales complejas y de alta dimensionalidad aprendidas por las redes neuronales. CRAFT hace que estas representaciones sean más comprensibles para los humanos al mostrar los conceptos visuales clave utilizados por los sistemas de IA para clasificar objetos.

Por ejemplo, si consideramos un tipo de pez de agua dulce llamado tenca, CRAFT muestra que el concepto de la tenca para el sistema de IA incluye conjuntos de aletas, cabezas, colas, ojos y más. Sin embargo, también revela que las redes neuronales a veces captan sesgos presentes en los conjuntos de datos. Uno de los conceptos asociados con la tenca, por ejemplo, es el rostro de un hombre blanco, debido a que hay muchas fotos en línea de pescadores deportivos sosteniendo peces que se parecen a la tenca. A pesar de eso, el sistema aún puede distinguir a un hombre de un pez.

Diferencias entre CRAFT y otros métodos de comprensión de la visión por computadora

Existen otros métodos, como los métodos de atribución, que utilizan mapas de calor para identificar las regiones más influyentes de una imagen en las decisiones de la IA. Sin embargo, estos métodos se centran principalmente en las regiones más prominentes de una imagen, revelando «dónde» mira el modelo, pero sin explicar «qué» ve el modelo en esas áreas.

Lo que distingue a CRAFT de estos métodos es su capacidad para identificar no solo qué conceptos utiliza el sistema para reconstruir una imagen o qué ve el modelo en esas áreas, sino también cómo el sistema clasifica esos conceptos. Por ejemplo, en el caso de la tenca, el torso del pez representa el 60% del peso total del concepto de la tenca. Esto nos permite comprender qué peso tiene cada subconcepto para el sistema de IA. En otras palabras, es más probable que el sistema clasifique una imagen con el torso de una tenca como un pez que clasifique una imagen con un hombre blanco como un pez.

Explicación de por qué la IA a veces comete errores extraños

En el estudio, los investigadores utilizaron CRAFT para explicar un error clásico de la IA: cómo un sistema de IA entrenado con ImageNet clasificó incorrectamente una imagen de un astronauta como una pala. El mapa de calor generado por un método de atribución clásico mostraba que el sistema se estaba enfocando en la parte central de la imagen en forma de una pala. El enfoque de CRAFT destacó los dos conceptos más influyentes que llevaron a la decisión junto con sus ubicaciones correspondientes.

CRAFT sugirió que la red neuronal llegó a su decisión porque identificó el concepto de «tierra» comúnmente asociado con imágenes de palas y el concepto de «pantalones de esquí» típicamente usados por personas que limpian la nieve de sus entradas con una pala. Debería haber identificado el concepto correcto de los pantalones del astronauta, pero es probable que nunca haya visto una imagen de esos pantalones durante el proceso de entrenamiento, por lo que el sistema no pudo establecer esa conexión.

Importancia de comprender cómo la computadora ve las imágenes

Comprender los detalles de cómo los sistemas de IA procesan las imágenes es crucial para mejorar la precisión y el rendimiento de las herramientas basadas en visión, como el reconocimiento facial. También ayuda a que estos sistemas sean más confiables y seguros frente a ataques cibernéticos. Por ejemplo, los ataques adversariales pueden engañar por completo a los sistemas de IA realizando pequeñas alteraciones en las imágenes que apenas son perceptibles para los humanos.

Un ejemplo importante es el caso de los ataques adversariales a señales de tráfico. Investigadores han demostrado que al agregar unos pocos adhesivos en un patrón particular a una señal de «stop», pueden hacer que un vehículo autónomo la interprete como una señal de límite de velocidad, lo que podría causar caos en la conducción. Por lo tanto, es necesario comprender por qué y cómo funcionan estos tipos de ataques en los sistemas de IA para protegernos contra ellos.

Las lecciones que los sistemas de visión de IA pueden enseñarnos sobre la visión humana

A través de la investigación en sistemas de visión de IA, hemos descubierto que hay diferencias fundamentales entre la forma en que estos sistemas procesan las imágenes y el cerebro humano. Por ejemplo, el cerebro humano no procesaría una señal de «stop» con algunos adhesivos negros como una señal de límite de velocidad. Sin embargo, estos sistemas de IA, aunque presentan limitaciones, a veces superan a los humanos en tareas como el reconocimiento facial. En el laboratorio, comparamos lo que es similar y diferente en estos sistemas y buscamos los mecanismos cerebrales que faltan en los sistemas de IA pero que sabemos que desempeñan un papel clave en la capacidad de los humanos para resolver estas tareas de manera sólida y eficiente. Luego, construimos abstracciones de estos mecanismos inspirados en el cerebro humano e incorporamos estos principios en los sistemas de IA. Descubrimos que cuando dotamos a los sistemas de IA con mecanismos inspirados en el cerebro humano, mejoran su rendimiento: son más robustos, aprenden de manera más eficiente y tienen una mayor precisión con menos entrenamiento.

Desde el punto de vista de la neurociencia, esta investigación nos ayuda a comprender mejor el cerebro humano y cómo estas diferencias entre los humanos y los sistemas de IA benefician a los humanos. Además, podemos validar nuestras ideas más fácilmente y de forma más segura utilizando los sistemas de IA en lugar de experimentar directamente en el cerebro humano. Comprender cómo los sistemas de visión de IA funcionan y mejoran también nos proporciona inspiración para mejorar los sistemas de IA y nos permite identificar los mecanismos clave de la inteligencia general y la inteligencia visual.

El futuro de la investigación y las aplicaciones de la IA en la visión

Si bien es interesante explorar cómo los sistemas de IA categorizan objetos naturales, el siguiente paso será utilizar los conocimientos adquiridos sobre la visión de IA y la visión humana para abordar grandes problemas científicos que actualmente son difíciles de resolver para los humanos. Esto incluye aplicaciones en diagnóstico de cáncer, reconocimiento de fósiles y exploración espacial. El potencial de aplicar la IA en estos campos es emocionante y prometedor.

Más información en serre-lab.github.io

Imagen meramente ilustrativa creada por WWWhatsnew con Midjourney