El uso de la física por parte de Sora, y su misterioso entrenamiento

Sora, el generador de videos de OpenAI que ha llenado los titulares de todos los medios durante las últimas horas, tiene muchas utilidades que podrían aplicarse en sectores de todo tipo.

Ya os dije mi opinión sobre el tema ayer, pero dejando de lado el pesimismo, hoy quiero hablar sobre su aplicación en el mundo de los vieojuegos, porque Sora no solo es capaz de generar videos hiperrealistas, sino que también muestra una habilidad sin precedentes para crear y simular mundos de videojuegos, algo que hasta ahora parecía reservado a los humanos y sus complejos algoritmos de programación.

Según OpenAI, Sora puede «simular procesos artificiales», lo que incluye controlar un jugador en Minecraft y renderizar el mundo y su dinámica con gran detalle, todo ello de manera autónoma. Esto abre un universo de posibilidades para el diseño y desarrollo de videojuegos. Veamos los ejemplos de nuevo:

Lo que diferencia a Sora de otros generadores de video es su enfoque en simular físicas del mundo real, actuando más como un «motor de físicas basado en datos» que como un mero generador de imágenes. Esto permite que Sora realice miles de cálculos para predecir cómo interactúan los objetos con su entorno, creando lo que se conoce como un «modelo de mundo». Esta capacidad hace de Sora una herramienta perfecta para la generación de videojuegos, algo que destacó el investigador sénior de Nvidia, Dr. Jim Fan. Mirad este vídeo:

I see some vocal objections: "Sora is not learning physics, it's just manipulating pixels in 2D".
I respectfully disagree with this reductionist view. It's similar to saying "GPT-4 doesn't learn coding, it's just sampling strings". Well, what transformers do is just manipulating… pic.twitter.com/6omzD423vr
— Jim Fan (@DrJimFan) February 16, 2024

¿Sora aprende física?

La objeción de que «Sora no está aprendiendo física, solo manipula píxeles en 2D» es una que se ha escuchado y a la que discrepo respetuosamente, porque subestima la complejidad y el potencial de la tecnología que estamos discutiendo. Esta crítica me parece reduccionista y no captura la esencia de cómo funcionan las tecnologías emergentes como Sora, ni tampoco reconoce el verdadero avance que representa.

Para ponerlo en contexto, al igual que hizo Jim Fan, consideremos la evolución y las capacidades de GPT-4, un modelo de lenguaje que ha demostrado poder generar código Python ejecutable. GPT-4 no almacena árboles de sintaxis de Python de manera explícita; en cambio, aprende formas implícitas de sintaxis, semántica y estructuras de datos para generar código. Este proceso de aprendizaje no es trivial: es el resultado de manipular secuencias de números enteros (identificadores de tokens) a una escala masiva, lo que permite al modelo capturar y replicar patrones complejos de lenguaje y lógica.

De manera similar, Sora debe aprender formas implícitas de texto a 3D, transformaciones 3D, renderizado trazado de rayos y reglas físicas para modelar los píxeles de video lo más precisamente posible. Esto significa que Sora está aprendiendo conceptos de un motor de juego para satisfacer su objetivo, no a través de una programación explícita de estas reglas, sino a través de la observación y el análisis de enormes cantidades de datos. Esta capacidad de aprendizaje es una propiedad emergente de escalar masivamente el entrenamiento de texto a video.

Es importante reconocer que Sora no está destinado a reemplazar a los desarrolladores de motores de juego. Su comprensión emergente de la física es frágil y está lejos de ser perfecta, ya que todavía produce alucinaciones y errores que no concuerdan con nuestro sentido común de la física. Esto indica que, aunque Sora es una herramienta poderosa, aún tiene limitaciones significativas en su capacidad para simular interacciones físicas complejas de manera coherente.

Sin embargo, el potencial de Sora, al igual que el momento GPT-3 en 2020, es un indicador de lo que podría ser posible en el futuro. GPT-3, a pesar de sus imperfecciones, demostró ser una demostración convincente del aprendizaje en contexto como una propiedad emergente. En lugar de centrarnos en las imperfecciones actuales de estos modelos, deberíamos considerar lo que estas tecnologías emergentes podrían lograr a medida que continúan evolucionando. La extrapolación hacia lo que podrían ser capaces de hacer versiones futuras como GPT-4 y más allá, ofrece una visión emocionante de las posibilidades que la inteligencia artificial tiene para transformar campos como el desarrollo de videojuegos y más allá.

Los límites de Sora

Sin embargo, como con cualquier tecnología emergente, Sora no está exento de limitaciones. Aunque sus primeras pruebas han mostrado un gran potencial, OpenAI admite que el modelo aún no modela con precisión la física de muchas interacciones básicas, lo que ha resultado en algunos videos extraños y, a veces, hilarantes. No obstante, Sora ha superado desafíos que otros generadores de video no han podido, como la «permanencia del objeto» y una mejor dinámica de movimiento de cámara.

La especulación sobre qué fue entrenado Sora es alta, con rumores que sugieren el uso de motores de videojuegos como Unreal Engine 5 para ayudar en su entrenamiento. Aunque OpenAI no ha confirmado estas especulaciones, la idea de que Sora pueda haber aprendido de mundos digitales existentes es fascinante y abre preguntas sobre la propiedad intelectual y la atribución adecuada, especialmente considerando las demandas previas a OpenAI por el entrenamiento de modelos anteriores sin compensación.

Lo que está claro es que Sora tiene el potencial de cambiar las reglas del juego en el desarrollo de videojuegos, reduciendo significativamente la barrera de entrada para los desarrolladores y permitiendo una creación de contenido más rápida y eficiente. Sin embargo, también plantea desafíos significativos, desde el respeto a la propiedad intelectual hasta el impacto en el empleo dentro de la industria del videojuego, que ya ha sufrido numerosos despidos en el último año.