El año pasado vimos cómo DeepMind, de la empresa matriz de Google, Alphabet, detalló AlphaZero, un sistema de inteligencia artificial que podría enseñarse a sí mismo a dominar el juego del ajedrez, una variante japonesa de ajedrez llamada shogi y el juego de mesa chino Go. Venció a los campeones mundiales y protagonizó cientos de portadas de revistas en todo el mundo con el titular «la máquina vence al hombre». Tenía mérito, sí, ya que demostró una habilidad especial para aprender juegos de dos personas con información perfecta, es decir, juegos en los que cualquier decisión se toma teniendo en cuenta lo que ocurrió antes.
Pero AlphaZero tenía la ventaja de conocer las reglas de los juegos a los que se enfrentaba, algo que Muzero no necesita.
Estamos hablando de otro proyecto de Deepmind en el que se usa un modelo de aprendizaje automático capaz de enseñar las reglas. MuZero predice la información más relevante para la planificación del juego, y así consigue ser un campeón en 57 juegos diferentes de Atari e igualar a AlphaZero en Go, ajedrez y shogi.
Los investigadores dicen que MuZero allana el camino para aprender métodos en una gran cantidad de dominios del mundo real, particularmente aquellos que carecen de un simulador que comunique reglas o dinámicas del entorno. Imaginad, por ejemplo, llegar a un planeta desconocido: no hay reglas conocidas, hay que aprender sobre la marcha.
Hasta ahora los algoritmos de planificación se basan en el conocimiento de la dinámica del entorno, como las reglas del juego o un simulador preciso, pero este nuevo aprendizaje basado en modelos tiene como objetivo abordar este problema aprendiendo primero un modelo de la dinámica del entorno y luego planificando con respecto al modelo aprendido.
Comentan cómo funciona de la siguiente forma:
Básicamente, MuZero recibe observaciones, es decir, imágenes de un tablero de Go o una pantalla de Atari, y las transforma en un estado oculto. Este estado oculto se actualiza iterativamente mediante un proceso que recibe del estado anterior y una acción hipotética siguiente, y en cada paso el modelo predice la política (por ejemplo, el movimiento para jugar), la función de valor (por ejemplo, el ganador) y la recompensa (por ejemplo, los puntos anotados al jugar un movimiento).
Es decir, modela un entorno dado como un paso intermedio, utilizando un modelo de transición de estado que predice el siguiente paso y un modelo de recompensa que anticipa la recompensa.