Las posibilidades de la inteligencia artificial (IA) no dejan de sorprendernos. En la industria creativa, se está utilizando para automatizar procesos tediosos y, al mismo tiempo, inspirar a artistas y facilitar su proceso creativo. Los diseñadores de moda no son una excepción.
Investigadores de la Universidad de Florencia, la Universidad de Módena y Reggio Emilia y la Universidad de Pisa han creado un nuevo marco de visión por computadora que puede ayudar a los diseñadores de moda a visualizar sus diseños, mostrándoles cómo se verían en el cuerpo humano.
Un nuevo enfoque en la moda
A diferencia de otros trabajos que se centraron en la prueba virtual de prendas, los investigadores italianos desarrollaron un marco que puede apoyar el trabajo de los diseñadores, mostrándoles cómo se verían sus prendas en la vida real. Utilizando un enfoque llamado «edición de imágenes de moda multimodal condicionada», los diseñadores pueden generar imágenes de moda a partir de distintos estímulos, como texto, bocetos y puntos clave del cuerpo humano. El equipo propuso una nueva arquitectura basada en modelos de difusión latente, un enfoque que nunca antes se había utilizado en el mundo de la moda.
En lugar de utilizar redes adversarias generativas (GAN), una arquitectura de red neuronal artificial que se utiliza a menudo para generar textos o imágenes, los investigadores decidieron crear un marco basado en modelos de difusión latente (LDM). Como estos modelos están entrenados en un espacio latente comprimido y de menor dimensión, pueden crear imágenes sintéticas de alta calidad.
Creando nuevos conjuntos de datos
La mayoría de los conjuntos de datos existentes para entrenar modelos de IA en tareas de diseño de moda solo incluyen imágenes de baja resolución de prendas y no incluyen la información necesaria para crear imágenes de moda basadas en estímulos de texto y bocetos. Para poder entrenar su modelo de manera efectiva, los investigadores tuvieron que actualizar estos conjuntos de datos existentes o crear nuevos.
Dado que la tarea de edición de imágenes de moda multimodal condicionada era algo nuevo, los investigadores crearon dos nuevos conjuntos de datos: Dress Code y VITON-HD, y los extendieron con anotaciones multimodales recopiladas de manera semiautomática. Los resultados experimentales sobre estos nuevos conjuntos de datos demuestran la efectividad de su propuesta, tanto en términos de realismo como de coherencia con los estímulos multimodales proporcionados.
Los resultados
En las primeras evaluaciones, el modelo creado por el equipo de investigadores logró resultados muy prometedores, creando imágenes realistas de prendas en cuerpos humanos inspiradas en bocetos y estímulos de texto específicos. El código fuente de su modelo y las anotaciones multimodales que agregaron a los conjuntos de datos ya están en GitHub.
Este nuevo modelo podría integrarse en herramientas de software existentes o nuevas para diseñadores de moda. También podría informar el desarrollo de otras arquitecturas de IA basadas en LDM para aplicaciones creativas del mundo real. Seguramente no tardaremos mucho en ver software de este tipo en el mercado.