Une tentative de résolution du morpion à l'aide de Keras et de LSTM

Deep Learning n'est pas le moyen de résoudre le Tic-Tac-Toe mais c'est certainement une expérience éducative agréable.

2 mars 2022

Après avoir implémenté mon premier modèle Deep Learning LSTM pour un projet, je me suis demandé si Deep Learning pouvait aussi résoudre un jeu. Le premier jeu qui me vient à l'esprit est le Tic-Tac-Toe. Ensuite, vous faites des recherches sur Internet et il semble que de nombreuses personnes aient eu la même idée. Bien sûr.

Je présente ci-dessous ma solution pour résoudre le jeu du morpion en utilisant Keras et LSTM (mémoire à long terme). Il s'agit de Deep Learning et non d'une solution d'apprentissage par renforcement, qui est un sujet totalement différent.

La solution n'utilise pas un seul modèle, mais un modèle pour chaque mouvement. Pourquoi ? Parce que je voulais éviter que les données d'entraînement d'un premier coup soient "polluées" par les données d'entraînement des coups suivants.

À propos du jeu Tic-Tac-Toe

Il existe 255168 façons de jouer à ce jeu. Parmi ces parties, 131184 sont gagnées par le premier joueur, 77904 reviennent à l'adversaire et 46080 se terminent par un match nul.

Un plateau est constitué de cases dont le contenu est vide, X et O. Le nombre total de plateaux possibles est 3^9 = 19 683.

Ce que nous savons sur le jeu du morpion

Notre boîte noire Deep Learning sait ce qui suit sur le jeu :

Il y a deux joueurs
Il se joue sur 9 cases, appelons-le plateau de jeu
Les joueurs effectuent un déplacement à tour de rôle
Effectuer un déplacement signifie attribuer un champ inutilisé à un joueur.
Cela signifie que nous savons quels champs sont disponibles lorsque nous effectuons un déplacement.
Après quelques coups, quelqu'un nous dit que la partie est terminée et qui a gagné, perdu ou fait match nul.

C'est tout ce que nous savons, pas grand chose. Peut-on utiliser la Deep Learning pour jouer des parties gagnantes ?

Quelques questions et réponses

Comment représenter le plateau ?
Comment représenter un coup ?
Doit-on utiliser la régression ou la classification et comment l'utiliser ?
Faut-il utiliser le MLP (Multilayer Precepion) ou le LSTM (Long Short Term Memory) ou autre chose ?
Chaque coup doit-il avoir son propre modèle ?
Les deux joueurs doivent-ils avoir leur propre modèle ?

Comment représenter le plateau ?

Le plateau est un vecteur de neuf nombres, un pour chaque champ. Le numéro est 0 quand il peut être utilisé par le joueur1 ou le joueur2. Il vaut 1 lorsqu'il est pris par le joueur1 et 2 lorsqu'il est pris par le joueur2.

Comment représenter le coup ?

Ce n'est pas vraiment important, utilisons une liste d'une position de ligne et de colonne.

Régression ou classification et comment l'utiliser ?

Avec la régression, nous pouvons essayer de prédire une valeur pour le prochain coup.

Avec la classification, nous pouvons essayer de prédire un vecteur des meilleurs coups.

Je choisis ici la régression. Nous avons deux joueurs. Les valeurs pour le joueur 1 :

2 : victoire
1 : nul
0 : perdu

La prédiction sera une valeur entre 2 et 0. Si c'est notre tour, nous prédisons la valeur pour tous les coups disponibles. Ensuite, nous choisissons la meilleure valeur disponible, c'est-à-dire la valeur maximale. Cela donne notre coup. Pour le joueur 2, la meilleure valeur disponible est le minimum.

MLP (Multilayer Precepion) ou LSTM (Long Short Term Memory) ou autre chose ?

Je ne sais pas, essayons LSTM.

Chaque mouvement a son propre modèle ?

Je pense que c'est important. Si nous n'avons qu'un seul modèle, alors les données après l'étape N sont également incluses. Cela semble totalement faux.

Les deux joueurs devraient-ils avoir leur propre modèle ?

Je pense que oui. Le joueur 1 a toujours un coup d'avance, le joueur 2 a toujours un coup de retard.

Données d'entraînement

Nous utilisons la régression, voir ci-dessus, pour générer une valeur pour chaque coup possible à un moment donné. Le joueur 1 choisit le coup avec la valeur maximale, l'adversaire, le joueur 2 choisit le coup avec la valeur minimale.

Le plateau est un vecteur de neuf champs. Les champs peuvent être vides, X pour le joueur 1 et O pour le joueur 2. Un jeu est constitué de plusieurs vecteurs. Nous attribuons le résultat du jeu à tous les vecteurs d'un jeu.

Par exemple, les données d'un jeu ressemblent à ceci :

[1, 0, 0, 0, 0, 0, 0, 0, 0, 0] -> 2 # player1 makes a move
[1, 0, 0, 0, 0, 0, 0, 2, 0, 0] -> 2 # player2
[1, 1, 0, 0, 0, 0, 0, 2, 0, 0] -> 2 # player1
[1, 1, 0, 0, 0, 0, 0, 2, 0, 2] -> 2 # player2
[1, 1, 1, 0, 0, 0, 0, 2, 0, 2] -> 2 # player1 won

Pour plus d'informations sur le modèle LSTM , veuillez consulter le document "Comment développer des modèles LSTM pour la prévision des séries temporelles", voir les liens ci-dessous. Le modèle est un multivariate LSTM utilisant n_steps_in=2 et n_steps_out=1.

Pour générer les données d'entraînement, nous jouons le jeu plusieurs fois.

Données provenant uniquement de jeux uniques

Pour entraîner notre modèle, nous générons des données en jouant un certain nombre de parties. Pour ce faire, nous utilisons des mouvements aléatoires. Cela signifie qu'il peut y avoir de nombreux jeux en double dans notre ensemble de données, en d'autres termes, l'ensemble de données est pollué. Pour l'instant, je m'assure qu'il n'y a pas de parties en double, en utilisant une signature du plateau et du résultat final.

Un modèle pour chaque coup

Si nous utilisons un seul modèle, les données d'apprentissage sont "polluées" par les données futures. Lorsque notre coup est joué, nous voulons savoir quel est le meilleur coup suivant. Tout ce qui suit cette étape pollue nos données existantes. C'est pourquoi j'utilise plusieurs modèles, un pour chaque étape.

move[n]    model[n] with data upto step[n+1]
move[n+1]  model[n+1] with data upto step[n+2]
etc.

Pour le joueur 1, cela signifie qu'au coup [n], nous utilisons le modèle [n] qui a été entraîné avec des données jusqu'au coup n+1. De cette façon, nous pouvons sélectionner le meilleur coup disponible à effectuer.

Le paramètre n_steps_in=2 signifie que nous n'avons pas de modèle pour le premier coup. Ce que nous faisons, c'est que le premier coup est aléatoire, pour les deux joueurs.

De même, nous n'utilisons pas de modèle s'il ne reste qu'un seul coup.

Performance

Ok, j'ai implémenté ceci. Quelles sont les performances ? Le résultat de l'entraînement montre pour tous les modèles que l'erreur_absolue moyenne est réduite d'environ 0,8 à 0,6. Ce n'est pas très bon.

Dans les résultats ci-dessous, j'ai les deux joueurs. Un joueur peut être :

RD : fait des mouvements aléatoires
NN : fait des mouvements Neural Network

Le premier joueur est le joueur1, le second est le joueur2. Les données d'entraînement sont générées comme décrit ci-dessus. Elles sont générées jusqu'à ce que nous ayons, par exemple, 1000 x gagné-tiré-perdu = 1000xwon, 1000xlost, et 1000xdraw.