GAUDI: Inteligencia artificial de Apple para generar espacios tridimensionales

Publicado el

Gaudi

De la mano del constante surgimiento de nuevas experiencias multimedia, más el impulso reciente y la proyección que recae sobre la realidad virtual, hoy en día existe una mayor demanda de avances en modelos generativos basados en inteligencia artificial, para que los sistemas de aprendizaje entiendan y creen espacios tridimensionales.

Como fruto de una investigación reciente, Apple presentó GAUDI, un nuevo modelo generativo que es capaz de generar espacios tridimensionales a partir de una orden en texto y una imagen de referencia. 

IA para generar espacios 3D, lo nuevo de Apple

Ya es sabido que Apple trabaja en su propia senda hacia el metaverso. Sin ir muy lejos, el mismo Mark Zuckerberg resaltó las diferencias que hay entre su propuesta y lo que prepara la compañía de la manzana mordida.

El presente proyecto se puede encasillar como un avance de Apple en esta materia, considerando que la compañía marcará su camino, con hardware y software propio para acercarse a la realidad virtual, el metaverso e incluso otras áreas afines, como el desarrollo de videojuegos y otras experiencias multimedia.

El modelo generativo presentado recibió el nombre de GAUDI, en referencia al famoso arquitecto catalán Antoni Gaudí. Este sistema puede capturar la distribución de escenas tridimensionales y exportar vistas de escenas muestreadas de la distribución aprendida.

Ante la orden “camina hacia la cocina”, tomando como referencia la imagen superior, GAUDI puede generar tomas desde distintos planos para construir, artificialmente, una ruta visual de desplazamiento.

El ejemplo adjunto, junto a muchos otros más, puede revisarse en acción, con imágenes en movimiento, desde el sitio web del proyecto. Vale advertir que el sitio puede resultar pesado para algunos dispositivos, pues cuenta con una larga serie de ejemplos en formato GIF.

La investigación tras este proyecto, detalla que este modelo utiliza un enfoque escalable de dos etapas. En primer lugar, el sistema se encarga de aprender una representación del entorno, apta para distintos ángulos de cámara. Luego, la distribución de estas representaciones se modela en un espacio navegable.

Una novedad técnica implementada en GAUDI es su capacidad de optimización de eliminación de ruido, para encontrar representaciones que puedan generar incoherencias o anomalías en su conjunto.

Esta herramienta fue presentada como un recurso versátil, pues presentó un buen rendimiento trabajando con varios conjuntos de datos diferentes.

Considerando que, dada la etapa de avance de esta iniciativa, recién se presentó sólo la tecnología en sí misma y sus capacidades, será interesante verla en el futuro implementada en algún proyecto.