Google crea IA que transforma texto en imágenes 3D, así se compara con Dall-E, imgcreator y Stable Diffusion

Juan Diego Polo

hace 3 años

En los últimos meses hemos visto una avalancha de sistema de inteligencia artificial que transforman texto en imágenes. Hay de todo tipo, para todos los gustos, y los resultados pueden ser realmente impresionantes.

Ahora Google anuncia DreamFusion, el generador de texto a imagen 3D de última generación.

Disponible en imagen.research.google, lo anunciaron vía Twitter con varios ejemplos de lo que puede hacer, pero antes de compararlo con otras plataformas existentes, veamos más detalles de este nuevo sistema.

Se trata de una evolución de Dream Fields, un generador de texto a imagen 3D que Google ya nos mostró el año pasado. Lo que hace es crear imágenes 3D utilizando conjuntos de datos 2D parciales, con un modelo de solicitud de texto a imagen preentrenado.

A diferencia de Dream Fields, que utilizó la tecnología CLIP de OpenAI como el último modelo preentrenado, DreamFusion ahora usa la suya propia: Imagen, el competidor DALL-E 2 de Google.

Ben Poole es el científico investigador que lo presentó, coautor del artículo de prueba de concepto, quien publicó:

Optimizamos un NeRF desde cero utilizando un modelo de difusión de texto a imagen preentrenado. ¡No se necesitan datos 3D!

Al no necesitar datos 3D, es mucho más fácil entrenarlo, por lo que aprenderá más rápido y mejorará más con el tiempo.

Aún no tiene resultados de imágenes con la calidad fotorrealista de DALL-E 2, pero los dibujos generados tienen sentido, con gran profundidad y buenos límites, sin datos abstractos aleatorios por el dibujo.

Dreamfusion, de Google, vs Dall-E, imgcreator y Stable Diffusion

Aún no está disponible para el público, pero en su web hay algunos ejemplos que podemos usar para compararlos con otras herramientas del mercado.

Veamos cómo dibuja la frase «Un cerebro montado en un cohete dirigiéndose hacia la luna»

En Imgcreator hay buena calidad en el resultado, aunque el cerebro no está montado en el cohete.

Con DreamStudio Lite vemos el poder de Stable Diffusion, donde el cerebro solo aparece en uno de los 4 diseños publicados.

Aquí tenemos el ejemplo con el nuevo proyecto de Google. Perfecto, con todos los elementos y con el cerebro «montado» en el cohete, tal y como indica la descripción.

DALL-E lo ha interpretado al revés, en lugar del cerebro montado en el cohete, tenemos al cohete montado en el cerebro…

Aún faltaría por probar DALL-E, esperemos que podamos hacerlo en breve.