Uno de los mayores desafíos de los modelos de lenguaje y visión (VLMs, por sus siglas en inglés) es que, aunque pueden identificar objetos y describir escenas en imágenes estáticas con una precisión notable, tienen serias limitaciones para interpretar espacios tridimensionales. En la práctica, esto significa que si se les presenta una pregunta que requiere entender la relación espacial entre objetos más allá de lo que una imagen 2D muestra directamente, fallan. Continúa leyendo «MindJourney: una nueva forma de enseñar a la IA a entender el espacio en 3D»