La generación de escenas tridimensionales a partir de fotografías ha sido durante años una meta ambiciosa en el campo de la inteligencia artificial. Sin embargo, los métodos existentes solían depender de conjuntos de datos muy controlados y limitados. Es decir, solo funcionaban bien con fotos tomadas desde múltiples ángulos, en condiciones de luz estables y sin demasiadas interferencias visuales. Pero el nuevo sistema WildCAT3D, desarrollado por un equipo liderado por la profesora Hadar Averbuch-Elor de Cornell Tech, cambia radicalmente ese panorama.
Este avance, presentado en la conferencia NeurIPS 2025 y publicado en arXiv, se centra en superar una de las principales barreras de la síntesis de vistas novedosas (NVS, por sus siglas en inglés): la falta de datos consistentes. A diferencia de los modelos anteriores, WildCAT3D puede aprender a partir de fotos tomadas por usuarios comunes, en condiciones reales, con todas las imperfecciones que eso conlleva.
Fotografías reales para entornos virtuales
Las imágenes que se comparten a diario en redes sociales y plataformas turísticas tienen algo en común: son variadas, espontáneas y, muchas veces, caóticas. Pueden haber sido captadas en un día soleado o nublado, en invierno o verano, con objetos que obstruyen parcialmente la escena o desde ángulos poco ideales. Este tipo de material, conocido como «in-the-wild», era difícil de utilizar para entrenar modelos 3D debido a su falta de homogeneidad.
Lo innovador de WildCAT3D es que está diseñado justamente para aprender de ese caos. En lugar de confundirse ante los cambios de luz, clima o elementos pasajeros, el modelo aprende a identificar lo que permanece constante en una escena: la arquitectura, la disposición del espacio, los volúmenes. Es como enseñarle a una IA a ignorar el ruido para concentrarse en la melodía.
Cómo funciona WildCAT3D
El corazón de esta tecnología es un modelo de difusión multivista, capaz de analizar colecciones de imágenes diversas y deducir la estructura tridimensional del lugar representado. La clave está en su capacidad para reconocer patrones visuales persistentes, tratando las diferencias como detalles transitorios. De esta manera, genera vistas desde ángulos que nunca fueron fotografiados, manteniendo una coherencia visual sorprendente.
Un ejemplo concreto: basta una sola foto de una plaza tomada durante unas vacaciones para que el sistema pueda recrear otras perspectivas del lugar, como si el usuario pudiera caminar a su alrededor. Este tipo de tecnología también permite simular cómo se vería una escena con distinta iluminación o bajo diferentes condiciones climáticas, lo que abre muchas puertas en campos creativos y técnicos.
Aplicaciones que van más allá del entretenimiento
Aunque los videojuegos y el turismo virtual son dos de los sectores que más rápidamente podrían aprovechar WildCAT3D, su impacto potencial se extiende mucho más lejos. La reconstrucción digital de sitios históricos, por ejemplo, podría beneficiarse enormemente. Con solo unas cuantas fotos tomadas por visitantes, sería posible crear modelos tridimensionales detallados para fines de investigación, educación o preservación cultural.
Otro uso interesante está en la planificación urbana y arquitectónica. Antes de construir o renovar un espacio, podría explorarse en 3D utilizando fotos existentes del lugar. Esto permitiría evaluar visualmente el impacto de una obra sin necesidad de realizar costosos relevamientos fotográficos profesionales.
En la educación, podrían generarse experiencias inmersivas en las aulas. Imagina estudiar historia mientras recorres virtualmente una antigua ciudad europea con solo una foto antigua como punto de partida.
Democratización de la creación 3D
Uno de los objetivos del equipo de desarrollo es hacer que la generación de entornos 3D sea accesible para más personas. Hasta ahora, lograr este tipo de contenido requería conocimientos técnicos avanzados, equipos especializados y grandes bases de datos. Con WildCAT3D, cualquier persona con una cámara de teléfono móvil podría aportar el material necesario para construir espacios tridimensionales creíbles.
Este cambio también podría beneficiar a pequeños desarrolladores de videojuegos, artistas digitales o investigadores sin grandes recursos. Al reducir la dependencia de datasets cuidadosamente curados y permitir el uso de imágenes con licencias permisivas disponibles en internet, se amplía el alcance de quienes pueden participar en la creación de mundos virtuales.
Hacia un futuro con entornos digitales más ricos y accesibles
El trabajo de Averbuch-Elor y su equipo marca un cambio en la manera en que la inteligencia artificial puede comprender y representar el mundo. Al enfocarse en lo que es constante en medio de la variabilidad del mundo real, WildCAT3D representa una forma más humana de ver la tecnología: una que acepta la imperfección y saca provecho de ella.
La investigación publicada bajo el título «WildCAT3D: Appearance-Aware Multi-View Diffusion in the Wild» está disponible en arXiv, y promete ser el inicio de una nueva generación de herramientas de generación 3D. El equipo espera que esta metodología inspire a otros a explorar modelos que aprendan directamente de datos accesibles en la web, fomentando una cultura más abierta y participativa en la construcción de entornos digitales.
