La nueva IA de DeepMind es capaz de dominar un juego sin conocer las reglas

Publicado el

Muzero DeepMind

DeepMind comparte un nuevo informe sobre el potencial de su nueva IA y la dinámica que implementa para alcanzar resultados asombrosos.

Una IA que supera por lejos a su predecesoras y puede lograr grandes avances en diferentes industrias.

Nueva IA de Google que aprende sin conocer las reglas

Ya hemos visto algunas de las IA de DeepMind en acción. Por ejemplo, AlphaGo que venció a jugadores profesionales de Go. O a AlphaGo Zero, una IA autodidacta que pudo vencer a sus contrincantes observando previamente las técnicas usadas en diferentes partidas.

Y no podemos olvidarnos de AlphaZero, que podía jugar y ganar en ajedrez, Go y shogi. Si bien todas fueron superando a la versión anterior, tenían algo en común: todas conocían las reglas del juego de antemano. Una dinámica que cambia completamente con la nueva IA de DeepMind.

A la nueva IA se la denomina MuZero y puede dominar un juego sin saber previamente cómo se juega. Puede analizar la situación, aprender de ella, planificar su jugada y ganar la partida. Por supuesto, esto no tiene nada que ver con las IA aterradoras de las películas de ciencia ficción que piensan de forma independiente.

Este nuevo algoritmo marca todo un hito para DeepMind, ya que la IA puede aprender las reglas por sí sola a medida que se adapta continuamente a la simulación. De esta forma, logran uno de los objetivos de los investigadores, que la IA pueda planificar sus acciones en entornos desconocidos o reglas complicadas y cambiantes, tal como menciona el equipo de DeepMind:

Específicamente, MuZero modela tres elementos del entorno que son críticos para la planificación:

  • El valor: ¿Qué tan buena es la posición actual?
  • La política: ¿Qué acción es la mejor a tomar?
  • La recompensa: ¿Qué tan buena fue la última acción?

Todo esto se aprende utilizando una red neuronal profunda y es todo lo que se necesita para que MuZero comprenda lo que sucede cuando se toma una determinada acción y planifique en consecuencia.

Una dinámica que puede desempeñar sin problemas en el ajedrez, shogi, Go y Atari. Además, MuZero puede usar lo aprendido en partidas anteriores para planificar sus movimientos, sin necesidad de analizar su entorno para recopilar nuevos datos.

Tal como sucedió con las IA anteriores, DeepMind espera aprender de este nuevo algoritmo para aplicarlo en diferentes entornos en la vida real.