El primer gran logro de la inteligencia artificial fue el ajedrez. El juego tiene un número vertiginoso de combinaciones posibles, pero era relativamente manejable porque estaba estructurado por un conjunto de reglas claras. Un algoritmo siempre puede tener un conocimiento perfecto del estado del juego y conocer todos los movimientos posibles que él y su oponente pueden realizar. El estado del juego se puede evaluar con solo mirar el tablero.
Pero muchos otros juegos no son tan simples. Si tomas algo como PAC Man, por lo que averiguar el movimiento ideal implicaría considerar la forma del laberinto, la ubicación de los fantasmas, la ubicación de áreas adicionales para limpiar, la disponibilidad de potenciadores, etc., y el mejor plan puede terminar en desastre si Blinky o Clyde lo hacen. un movimiento inesperado. Desarrollamos IA que también pueden manejar estos juegos, pero tuvieron que adoptar un enfoque muy diferente al de aquellos que conquistaron el ajedrez y el Go.
Sin embargo, al menos hasta ahora Hoy, la división DeepMind de Google ha publicado un artículo que describe la estructura de una IA que puede manejar el ajedrez y los clásicos de Atari.
Árboles de refuerzo
Los algoritmos que funcionaron en juegos como el ajedrez y el Go hacen su planificación utilizando un enfoque basado en árboles, en el que simplemente esperan todas las ramas que resultan de diferentes acciones en el presente. Este enfoque es computacionalmente costoso y los algoritmos dependen del conocimiento de las reglas del juego, lo que les permite proyectar el estado actual del juego a posibles estados futuros del juego.
Otros juegos requieren algoritmos que realmente no se preocupan por el estado del juego. En cambio, los algoritmos simplemente evalúan lo que «ven», por lo general, algo así como la posición de los píxeles en la pantalla de un juego de arcade, y eligen una acción basada en eso. No existe un modelo interno del estado del juego, y el proceso de entrenamiento implica en gran medida averiguar qué respuesta es apropiada dada esa información. Ha habido algunos intentos de modelar el estado de un juego basándose en entradas como la información de píxeles, pero no ha funcionado tan bien como los algoritmos exitosos que solo responden a lo que está en la pantalla.
El nuevo sistema, que DeepMind llama MuZero, se basa en parte en el trabajo de DeepMind con AlphaZero AI, que aprendió a dominar los juegos basados en reglas como el ajedrez y Go. Pero MuZero también agrega un nuevo giro que lo hace sustancialmente más flexible.
Este giro se denomina «aprendizaje por refuerzo basado en modelos». En un sistema que usa este enfoque, el software usa lo que puede ver en un juego para construir un modelo interno del estado del juego. Críticamente, este estado no está preestructurado en función de cualquier comprensión del juego: la IA puede tener mucha flexibilidad con respecto a qué información está y qué no está incluida en él. La parte de aprendizaje por refuerzo se refiere al proceso de entrenamiento, que permite a la IA aprender a reconocer cuándo el modelo que está usando es preciso y contiene la información que necesita para tomar decisiones.
Pronósticos
El modelo que crea se usa para hacer varias predicciones. Esto incluye el mejor movimiento posible según el estado actual y el estado del juego como resultado del movimiento. Críticamente, su predicción se basa en su modelo de estado de juego interno, no en la representación visual real del juego, como la ubicación de las piezas de ajedrez. El pronóstico en sí se basa en la experiencia pasada, que también está sujeta a capacitación.
Finalmente, el valor de la jugada se evalúa utilizando las predicciones del algoritmo de cualquier recompensa inmediata ganada con esa jugada (el valor en puntos de una pieza tomada en el ajedrez, por ejemplo) y el estado final del juego, como resultado de ganar o perder. de ajedrez. Esto puede implicar las mismas búsquedas en árboles de estado de juego potenciales realizadas por algoritmos de ajedrez anteriores, pero en este caso, los árboles consisten en los propios modelos de juego internos de AI.
Si esto es confuso, también puede pensarlo de esta manera: MuZero realiza tres evaluaciones en paralelo. Uno (el proceso de política) elige el siguiente movimiento, dado el estado actual del modelo de juego. Un segundo predice el nuevo estado resultante y cualquier recompensa inmediata por la diferencia. Y un tercero considera la experiencia previa para informar la decisión política. Cada uno de ellos es producto del entrenamiento, que se enfoca en minimizar los errores entre estas predicciones y lo que realmente sucede en el juego.
¡Al pozo!
Obviamente, la gente de DeepMind no tendría un artículo en Nature si eso no funcionara. MuZero hizo poco menos de un millón de partidos contra su predecesor AlphaZero para lograr un nivel similar de rendimiento en ajedrez o shogi. Para Go, superó a AlphaZero después de solo medio millón de juegos. En los tres casos, MuZero puede considerarse muy superior a cualquier jugador humano.
Pero MuZero también se destacó en un panel de juegos de Atari, algo que anteriormente requería un enfoque de IA completamente diferente. En comparación con el mejor algoritmo anterior, que no usa un modelo interno, MuZero tuvo una puntuación media y media más alta en 42 de los 57 juegos probados. Entonces, aunque todavía hay algunas circunstancias en las que se queda atrás, ahora ha hecho que la IA basada en modelos sea competitiva en estos juegos, mientras mantiene su capacidad para manejar juegos basados en reglas como el ajedrez y el Go.
En general, este es un logro impresionante y una indicación de cómo las IA están creciendo en sofisticación. Hace unos años, entrenar a las IA en una sola tarea, como reconocer a un gato en las fotos, fue un logro. Pero ahora, podemos entrenar varios aspectos de una IA al mismo tiempo: aquí, el algoritmo que creó el modelo, el que eligió el movimiento y el que predijo las recompensas futuras se entrenaron simultáneamente.
En parte, esto es producto de la disponibilidad de una mayor potencia de procesamiento, que hace posible jugar millones de partidas de ajedrez. Pero, en parte, es el reconocimiento de que esto es lo que debemos hacer si una IA es lo suficientemente flexible como para dominar tareas múltiples y distantes.
Naturaleza, 2020. DOI: 10.1038 / s41586-020-03051-4 (Acerca de los DOI)
Listado de imagen por Richard Heaven / Flickr