MAGE: La fusión de reconocimiento y generación de imágenes en un solo sistema

Publicado el

mago robot

La visión por computadora ha dado un gran salto gracias a la creación de un sistema revolucionario llamado MAGE. Desarrollado por investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT (CSAIL) y Google, MAGE fusiona dos tareas clave: el reconocimiento y la generación de imágenes. Este enfoque innovador supera la separación histórica entre estas funciones y logra un sistema único capaz de identificar imágenes con precisión y crear nuevas imágenes con una sorprendente semejanza a la realidad.

La unión de generación y reconocimiento de imágenes

La generación y el reconocimiento de imágenes han sido tradicionalmente procesos separados, como las habilidades de un chef que crea platos (generación) y un conocedor que los degusta (reconocimiento). Sin embargo, los investigadores se plantearon la pregunta: ¿Cómo se podría lograr una unión armoniosa entre estas dos capacidades distintas? Al igual que el chef y el conocedor comparten una comprensión común del sabor de la comida, un sistema de visión unificado requiere una profunda comprensión del mundo visual.

MAGE: El sistema de codificación generativa enmascarada

Para lograr esta unión, el equipo de investigadores desarrolló MAGE, un sistema llamado «Masked Generative Encoder» (Codificador Generativo Enmascarado). A diferencia de otras técnicas, MAGE no trabaja directamente con píxeles, sino que convierte las imágenes en «tokens semánticos«. Estos tokens son versiones abstractas y compactas de secciones de la imagen original, donde cada uno representa un fragmento de 16×16 píxeles. Al unir estos tokens, se crea una versión abstracta de la imagen que puede ser utilizada para tareas de procesamiento complejas, preservando al mismo tiempo la información de la imagen original. Esta etapa de tokenización se puede entrenar en un marco auto-supervisado, lo que permite el preentrenamiento en grandes conjuntos de datos de imágenes sin etiquetas.

El proceso de enmascaramiento y entrenamiento de MAGE

La magia de MAGE comienza cuando utiliza el «modelo de tokens enmascarados». El sistema oculta aleatoriamente algunos de estos tokens, creando un rompecabezas incompleto, y luego entrena una red neuronal para rellenar las piezas faltantes. De esta manera, MAGE aprende tanto a comprender los patrones en una imagen (reconocimiento de imágenes) como a generar nuevos patrones (generación de imágenes).

Aplicaciones y fortalezas de MAGE

MAGE tiene una amplia gama de aplicaciones y fortalezas. Por un lado, puede identificar y clasificar objetos en imágenes, aprender de unos pocos ejemplos, generar imágenes con condiciones específicas (como texto o clase), editar imágenes existentes y más. Además, MAGE no solo puede generar imágenes realistas desde cero, sino que también permite la generación condicional de imágenes, donde los usuarios pueden especificar criterios para las imágenes deseadas. Además, puede realizar tareas de edición de imágenes, como eliminar elementos de una imagen manteniendo una apariencia realista.

En términos de reconocimiento, MAGE destaca en el aprendizaje con pocos ejemplos. Logra resultados impresionantes en grandes conjuntos de datos de imágenes, como ImageNet, utilizando solo unos pocos ejemplos etiquetados. Su rendimiento en la generación de nuevas imágenes también ha establecido nuevos récords, superando a modelos anteriores con una mejora significativa.

El futuro de MAGE y la visión por computadora

Aunque MAGE ha demostrado ser un avance significativo, el equipo de investigación reconoce que aún hay desafíos por superar. El proceso de conversión de imágenes en tokens puede llevar a una pérdida de información, y los investigadores están explorando formas de comprimir imágenes sin perder detalles importantes. Además, planean probar MAGE en conjuntos de datos más grandes y entrenarlo en grandes conjuntos de datos sin etiquetas para mejorar su rendimiento aún más.

El desarrollo de MAGE ha sido considerado como un logro revolucionario en la fusión de la generación y el reconocimiento de imágenes en un solo sistema. Sus aplicaciones potenciales son amplias y se espera que inspire futuras investigaciones en el campo de la visión por computadora.

Más información en MIT News y arxiv.org