OpenAI, organización sin fines de lucro dedicada a la investigación en torno a la inteligencia artificial, presentó recientemente una red neuronal llamada DALL-E, entrenada para la creación de imágenes a partir de leyendas de texto.
Esta tecnología, que recibe su nombre a base de un juego de palabras entre el apellido de Salvador Dalí y Wall-E, el personaje de Disney, soporta una amplia gama de conceptos y expresiones en lenguaje natural, los que usa como base para la generación de resultados realmente impresionantes.
La base de esta red neuronal se funda en GPT-3, sigla de Generative Pre-trained Transformer 3, que es un modelo de lenguaje autorregresivo que emplea técnicas de aprendizaje profundo en la producción de textos que simulan la redacción humana.
En el caso de DALL-E, estamos frente a una versión de 12 mil millones de parámetros de GPT-3, entrenada para generar imágenes a partir de descripciones de texto, utilizando un conjunto de datos de pares de texto e imagen.
Al indagar sobre las bondades de esta tecnología, el equipo de OpenAI descubrió en ella una serie de capacidades amplias y variadas, como la aplicación de transformaciones a las imágenes existentes, la creación de animales y objetos en versiones antropomorfas y la combinación inverosímil de conceptos no relacionados.
Sorprendentes ejemplos de imágenes generadas por computadora
Haciendo gala de la potencia de esta herramienta, en la presentación que OpenAI hizo en su blog sobre DALL-E se adjuntan algunas de las imágenes obtenidas mediante este canal.
En la imagen adjunta, se aprecian en la primera fila distintas muestras de sillones con forma de aguacate, como respuestas generadas por la IA ante la entrada de texto “an armchair in the shape of an avocado”. En la segunda fila, una serie de letreros de tiendas con la inscripción “OpenAI” fue generada ante la frase “a store front that has the word ‘openai’ written on it”. En la tercera fila, una serie de gatos aparecen bosquejados en base a la fotografía que les precede, generados en base a la orden “the exact same cat on the top as a sketch on the bottom”.
Una misma orden puede ser generada en distintas variantes gráficas, como en estilos de pintura genéricos; en estética Pop Art, cubista o surrealista; emulando los estilos de Van Gogh o Monet; dibujos a lápiz, carbón, crayones, tiza o lápiz; ilustraciones tipo pixel art o caricatura y como fotografía en varias tonalidades, entre otros ejemplos más.
Una IA capaz de trabajar con una gran cantidad de variables
La inteligencia artificial tras DALL-E concibe al texto y la imagen como una única secuencia de datos, que puede llegar a contener hasta 1280 tokens. Fue entrenada con la máxima probabilidad para generar todos los tokens, uno tras otro y así, contar con una conceptualización lo más acabada posible de aquello que se busca materializar gráficamente.
Esta IA puede dominar varios atributos a la vez al momento de construir una imagen y cuenta con la capacidad de añadir más de un objeto al mismo plano. También, puede controlar variables como la perspectiva y tridimensionalidad de una escena, así como también puede comprender la estructura de algunos objetos y realizar inferencias en torno a su contexto, como aspectos culturales, temporales o geográficos. Con esta herramienta, además de diseñar o alterar imágenes de objetos, también puede trabajar con ambientes y combinar conceptos no relacionados.
En la presentación de este interesante avance, desde OpenAI señalaron como proyección que “planeamos analizar cómo modelos como DALL-E se relacionan con cuestiones sociales como el impacto económico en ciertos procesos de trabajo y profesiones, el potencial de sesgo en los resultados del modelo y los desafíos éticos a largo plazo que implica esta tecnología”. Claramente, esto es el principio de algo que no se detendrá únicamente en la entrega de sorpresas como esta.
Puedes revisar en detalle la presentación de DALL-E y conocer más ejemplos de su trabajo en el blog de OpenAI.