StoryDALL-E, una IA capaz de generar imágenes en secuencia

Nicolás Verdejo

hace 2 años

Los modelos de síntesis de texto a imagen, como DALL-E u otros similares, han demostrado su capacidad de convertir una leyenda de entrada en una visualización coherente.

Expandiendo las capacidades de estos sistemas, un nuevo proyecto demostró que es posible procesar narrativas más largas, incluso con expresiones metafóricas, para generar más de una imagen consecutiva, como parte de una misma secuencia.

Inteligencia artificial para generar imágenes consecutivas y coherentes entre sí

Los investigadores de este nuevo proyecto, se propusieron explorar una adaptación aplicable sobre un modelo de síntesis de texto a imagen previamente entrenado, añadiéndole la capacidad de ejecutar una nueva tarea: desarrollar la continuación de la historia que se presenta en la primera imagen generada.

En esta tarea, se proporciona una escena inicial, como un modelo que el sistema puede seguir con flexibilidad como referencia, dejando en manos de un sistema preentrenado y automatizado la generación de estas imágenes.

Los sistemas de generación de imágenes conocidos hasta la fecha no han sido entrenados para la ejecución de tareas especializadas como la visualización de historias. En este caso, la capacidad añadida a la IA se apoya justamente en este factor, comprendiendo la orden de referencia como una sucesión narrativa en la que determinados personajes interactúan.

Para mantener cierta coherencia, la historia visual generada por la IA se condiciona siempre a una imagen de origen, lo que permite una mejor generalización a las narrativas con nuevos personajes.

En este proceso, el equipo de investigación tomó como punto de partida otros modelos de síntesis de texto a imagen previamente entrenados, integrando sobre ellos un nuevo enfoque que, apoyado en las mismas variables, puede rescatar sus elementos principales para marcar una continuidad con las generaciones sucesivas.

El análisis compartido por los investigadores tras este proyecto, sugiere que la capacidad de comprender narrativas que involucran a varios personajes fue uno de los principales desafíos a abordar. En este caso, fue una tarea superada satisfactoriamente, obteniendo buenos resultados en la adaptación para que estos sistemas puedan ejecutar tareas nuevas, complejas y disponiendo de bajos recursos.

El software desarrollado dentro de este proyecto se encuentra disponible en GitHub para probarlo, en caso de contar con la experiencia necesaria, en una plataforma propia. Próximamente, contarán con una demostración operativa en la web, pero de momento presentan como adelanto una captura de pantalla que ilustra cómo lucirá en el futuro.