Adobe presenta sistema para tener más control en la creación de imágenes a partir de texto

En el dinámico sector de la inteligencia artificial y la generación de imágenes, Adobe Research junto con la Universidad de Oxford han dado un paso adelante significativo. Recientemente, han presentado un innovador método denominado Continuous 3D Words, diseñado para otorgar a los usuarios de modelos de texto a imagen un control detallado sobre diversos atributos en una imagen. Esta técnica promete transformar la forma en que interactuamos con la generación de imágenes, ofreciendo una precisión y flexibilidad sin precedentes.

Os resumo aquí el estudio, publicado en arxiv.org:

¿Qué son las Continuous 3D Words?

Las Continuous 3D Words son un conjunto especial de tokens de entrada que permiten la transformación continua de atributos específicos dentro de una imagen. Esto significa que, a través de la manipulación de controles deslizantes y prompts de texto, los usuarios pueden ajustar con precisión aspectos como la iluminación, la orientación de las alas de un ave, el efecto dolly zoom y las poses de objetos en un entorno 3D. Imagina tener el poder de cambiar la dirección de la luz o la posición de un objeto con solo mover un control deslizante; eso es lo que hace posible esta tecnología.

Importancia de esta innovación

La relevancia de este desarrollo radica en su capacidad para superar limitaciones actuales en los modelos de difusión de imágenes. Tradicionalmente, estos modelos han tenido dificultades para reconocer y manipular atributos abstractos y continuos de manera precisa. Por ejemplo, ajustar la dirección de la iluminación o cambios en la forma no rígida de un objeto no era posible con simples descripciones de texto.

La fotografía, por un lado, ofrece un control detallado sobre la composición y la estética, pero requiere conocimiento técnico y es laboriosa. Los motores de renderizado 3D, por otro lado, proporcionan un control preciso pero son intensivos en trabajo y requieren una experiencia especializada. Continuous 3D Words busca unir lo mejor de ambos mundos, expandiendo el vocabulario de los modelos de texto a imagen con ejemplos generados a partir de motores de renderizado, permitiendo así un control fino durante la generación de imágenes.

Método de entrenamiento

El núcleo de este enfoque implica el aprendizaje de un vocabulario continuo que facilita la asociación entre diferentes valores de atributos y permite la interpolación durante la inferencia. Para evitar soluciones degeneradas y fomentar la generalización a nuevos objetos, se proponen dos estrategias de entrenamiento:

Entrenamiento en dos etapas: Evita que el modelo codifique cada valor de atributo como un nuevo objeto, manteniendo la generalización.
Uso de ControlNet con imágenes condicionadas: Previene el sobreajuste a fondos artificiales, promoviendo resultados más realistas.

Este proceso de entrenamiento se lleva a cabo de manera eficiente, asegurando que la generación de imágenes sea tanto precisa como práctica.

Implicaciones y usos potenciales

La implementación de Continuous 3D Words abre un abanico de posibilidades en la creación y edición de imágenes. Desde diseñadores gráficos hasta aficionados a la fotografía, esta tecnología ofrece una herramienta poderosa para la experimentación creativa y la producción de contenido visual de alta calidad. Podríamos ver aplicaciones en campos como el diseño de videojuegos, la animación, la publicidad, y más allá, donde la manipulación detallada de imágenes es esencial.

La habilidad de manipular imágenes con tal grado de control y precisión no solo democratiza el diseño y la creatividad, sino que también establece un nuevo estándar en la generación de imágenes por IA. Estoy emocionado por las posibilidades que esto abre para profesionales y entusiastas por igual, y espero ver cómo esta tecnología evoluciona y se integra en nuestras herramientas creativas. Seguramente lo veremos primero en Firefly, de Adobe.