El nuevo modelo V‑JEPA 2 de Meta promete acercar los robots a esa intuición que tanto admiramos en las personas. Igual que un niño que se atreve a cruzar la calle tras observar cientos de veces el semáforo, esta arquitectura de inteligencia artificial (IA) aprende mirando vídeos hasta crear un mapa mental del mundo físico. A partir de ahí, la máquina no solo reconoce un objeto; imagina qué podría ocurrir si lo empuja, lo gira o lo coloca en otro lugar. Esa capacidad de “echar un vistazo al futuro” es la chispa que cambia la robótica tradicional por agentes capaces de improvisar con seguridad.
Qué hace único a V‑JEPA 2
Los laboratorios de Meta ya habían presentado V‑JEPA en 2024, pero su sucesor amplía el alcance con 1 200 millones de parámetros y un entrenamiento que no depende de etiquetas humanas. En vez de miles de líneas de código explicando qué es una manzana, el sistema extrae patrones por sí mismo al examinar una lluvia de píxeles. Así nace una representación compacta –un espacio latente– desde la que anticipa movimientos y reacciones.
En las primeras pruebas, un robot equipado con V‑JEPA 2 fue capaz de colocar un vaso sobre la mesa tras recibir solo una foto del resultado esperado. Ese gesto, tan sencillo para cualquiera de nosotros, exige al robot entender alturas, fricción, gravedad y trayectorias. Antes había que programar cada milímetro; ahora la red neuronal rellena los huecos y ajusta los movimientos con la naturalidad de quien acomoda una taza para evitar que resbale.
Un aprendizaje que imita la observación humana
Imagínate a alguien que aprende a cocinar viendo vídeos de recetas sin tener la lista de ingredientes escrita. Al cabo de unos días, ese observador podrá imitar la técnica, usar nuevos utensilios y hasta improvisar un plato. V‑JEPA 2 se educa igual: primero mira horas de metraje para detectar regularidades (pre‑entrenamiento sin acciones). Después, en una segunda ronda, relaciona lo que ve con la acción adecuada (entrenamiento condicionado), como quien pasa de mirar a lanzar sus propios fogonazos culinarios.
La clave está en que el modelo no necesita supervisión constante. Esa autonomía recorta gastos, acelera la investigación y libera a los ingenieros para tareas creativas en lugar de etiquetar fotograma a fotograma. En la práctica, este enfoque aproxima la IA a la manera en que las personas interiorizan normas tácitas: nadie nos dice cuántos Newtons aplicar al agarrar un huevo; lo aprendemos probando.
Imaginación latente: el robot juega la partida en su mente
Antes de mover un dedo metálico, el algoritmo genera varios posibles futuros dentro de su espacio latente. Es como si jugara una partida de ajedrez contra sí mismo a gran velocidad, barajando los movimientos y eligiendo la secuencia que mejor encaja con el objetivo. Gracias a esa “simulación express” la máquina evita derrames, tropiezos o golpes inesperados.
Un ejemplo cotidiano: al coger una botella de plástico medio llena, el agua se desplaza y cambia el centro de gravedad. V‑JEPA 2 prevé ese desequilibrio incluso si jamás ha sostenido esa marca de botella. El método recuerda al conductor experimentado que siente cómo el coche se comportará antes de girar el volante: no hace falta una lista de instrucciones, basta con un modelo interno bien afinado.

Resultados sobre ruedas y tornillos
Las demos no se quedaron en un entorno virtual. Meta instaló el modelo en robots reales con brazos articulados y cámaras estándar. En un laboratorio desordenado –cajas, herramientas, objetos aleatorios– el sistema completó tareas de recolección y desplazamiento sin necesitar mapas previos. La escena se asemeja a pedirle a alguien que ponga la mesa en una cocina ajena: mira a su alrededor, detecta los platos y las tazas, y se adapta al espacio.
Más allá del hogar, la compañía anticipa aplicaciones en logística, mantenimiento industrial y asistencia médica. Un almacén puede cambiar de distribución cada semana; un hospital exige maniobras delicadas alrededor de personas y equipos sensibles. Contar con una IA que se oriente y planifique sin re‑programación constante reduce tiempos y costes, y sobre todo aumenta la seguridad.
Desafíos que aún esperan su turno
Aunque V‑JEPA 2 da un salto notable, todavía opera en una única escala temporal. Eso significa que tareas extensas, como cocinar una receta completa o montar un mueble, se le atragantan: mucha memoria a largo plazo y decisiones que encadenan decenas de pasos. El equipo ya trabaja en variantes multi‑escala y en añadir multimodalidad –combinar visión, audio y tacto– para que la máquina perciba como nosotros, integrando el crujido de una tabla al cortarse o la vibración de un tornillo al apretarse.
Otro frente es la gestión de la energía computacional. Modelos tan grandes consumen muchos recursos de GPU para entrenar y también para inferir. Meta ha liberado el código en formato abierto y propone tres nuevos benchmarks que ayudarán a toda la comunidad a medir avances con menor huella energética.
Por qué esta tecnología cambiará tu día a día
Quizá pienses que un brazo robótico en un laboratorio queda lejos de tu rutina. Sin embargo, la misma robótica que hoy coloca un vaso podría, mañana, preparar tu café mientras ajusta el molido según el paquete nuevo que compraste. La capacidad de prever y planificar abre puertas a electrodomésticos realmente serviciales, drones que inspeccionen tejados sin chocar y sistemas de ayuda a personas mayores capaces de adaptar su asistencia a cada imprevisto.
A medio plazo, la investigación de Meta acerca la visión de Agentes de Máquinas Avanzadas o AMI: inteligencias que colaboran con humanos sin reemplazarlos, asumiendo las tareas repetitivas y peligrosas. Para los desarrolladores, tener un modelo abierto implica poder experimentar, detectar sesgos y construir aplicaciones sobre una base compartida, del mismo modo que la web se disparó al hacerse pública.
Cuando mires a tu alrededor y veas un robot que se mueve con fluidez –cogiendo una fruta sin aplastarla o acomodando tu móvil en un cargador– recuerda que debajo late una red cuyo entrenamiento se parece más a ver una película que a leer un manual. Esa familiaridad con el mundo físico es la gran promesa de V‑JEPA 2.
