Een poging om Tic-Tac-Toe op te lossen met behulp van Keras en LSTM

Deep Learning is niet de manier om Tic-Tac-Toe op te lossen, maar het is zeker een leuke leerzame ervaring.

2 maart 2022

Na het implementeren van mijn eerste Deep Learning LSTM model voor een project zat ik te denken of Deep Learning ook een spelletje kon oplossen. Het eerste spel dat in je opkomt is Tic-Tac-Toe. Dan zoek je op internet en er blijken heel veel mensen te zijn die hetzelfde idee hadden. Natuurlijk.

Hieronder presenteer ik mijn oplossing om Tic-Tac-Toe op te lossen met behulp van Keras en LSTM (Long Short Term Memory). Het gaat hier om Deep Learning en niet om een Reinforcement Learning oplossing, dat is een heel ander onderwerp.

De oplossing gebruikt niet één model, maar een model voor elke zet. Waarom? Omdat ik wilde voorkomen dat de trainingsgegevens voor een vroege zet 'vervuild' worden met trainingsgegevens voor toekomstige zetten.

Over het Tic-Tac-Toe spel

Er zijn 255168 manieren om dit spel te spelen. Van deze spellen worden er 131184 gewonnen door de eerste speler, 77904 gaan naar de tegenstander, en 46080 eindigen in een gelijkspel.

Een bord bestaat uit velden met de inhoud leeg, X, en O. Het totaal aantal mogelijke borden is 3^9 = 19.683.

Wat we weten over het Tic-Tac-Toe spel

Onze Deep Learning black box weet het volgende over het spel:

Er zijn twee spelers
Het wordt gespeeld op 9 velden, laten we het een bord noemen
De spelers doen om de beurt een zet
Een zet doen betekent een ongebruikt veld aan een speler toewijzen
Dit betekent dat we weten welke velden beschikbaar zijn als we een zet doen
Na een aantal zetten vertelt iemand ons dat het spel voorbij is en wie er gewonnen, verloren of gelijk gespeeld heeft

Dat is alles wat we weten, niet echt veel. Kunnen we Deep Learning gebruiken om winnende partijen te spelen?

Enkele vragen en antwoorden

Hoe stellen we het bord voor?
Hoe stellen we een zet voor?
Moeten we regressie of classificatie gebruiken en hoe?
Moeten we MLP (Multilayer Precepion) of LSTM (Long Short Trem Memory) of iets anders gebruiken?
Moet elke zet een eigen model hebben?
Moeten beide spelers hun eigen model hebben?

Hoe moet het bord worden voorgesteld?

Het bord is een vector van negen getallen, één voor elk veld. Het getal is 0 als het gebruikt kan worden door speler1 of speler2. Het is 1 als het door speler1 wordt genomen en 2 als het door speler1 wordt genomen.

Hoe wordt de zet weergegeven?

Dit is niet echt belangrijk, laten we een lijst gebruiken met een rij en kolom positie.

Regressie of classificatie en hoe gebruiken we het?

Met regressie kunnen we proberen een waarde voor de volgende zet te voorspellen.

Met classificatie kunnen we proberen een vector van beste zetten te voorspellen.

Ik kies hier voor regressie. We hebben twee spelers. De waarden voor speler1:

2: gewonnen
1: gelijkspel
0: verloren

De voorspelling zal een waarde zijn tussen 2 en 0. Als het onze beurt is, voorspellen we de waarde voor alle beschikbare zetten. Dan kiezen we de beste beschikbare waarde, dat is het maximum. Voor speler 2 is de beste beschikbare waarde het minimum.

MLP (Multilayer Precepion) of LSTM (Long Short Term Memory) of iets anders?

Ik weet het niet, laten we LSTM proberen.

Elke zet heeft zijn eigen model?

Ik denk dat dit belangrijk is. Als we maar één model hebben, dan worden de gegevens na stap N ook meegenomen. Dat lijkt helemaal verkeerd.

Moeten beide spelers een eigen model hebben?

Ik denk van wel. Speler1 staat altijd 1 zet voor, speler2 staat altijd 1 zet achter.

Trainings gegevens

We gebruiken regressie, zie boven, om een waarde te genereren voor elke mogelijke zet op een bepaald moment. Speler1 kiest de zet met de maximale waarde, de tegenspeler, speler2 kiest de zet met de minimale waarde.

Het bord is een vector van negen velden. De velden kunnen leeg zijn, X voor speler1 en O voor speler2. Een spel bestaat uit meerdere vectoren. We kennen de uitkomst van het spel toe aan alle vectoren van een spel.

Bijvoorbeeld, de gegevens voor een spel zien er als volgt uit:

[1, 0, 0, 0, 0, 0, 0, 0, 0, 0] -> 2 # player1 makes a move
[1, 0, 0, 0, 0, 0, 0, 2, 0, 0] -> 2 # player2
[1, 1, 0, 0, 0, 0, 0, 2, 0, 0] -> 2 # player1
[1, 1, 0, 0, 0, 0, 0, 2, 0, 2] -> 2 # player2
[1, 1, 1, 0, 0, 0, 0, 2, 0, 2] -> 2 # player1 won

Voor informatie over LSTM , zie "Hoe LSTM modellen voor tijdreeksprognoses te ontwikkelen", zie onderstaande links. Het model is een multivariate LSTM met n_steps_in=2 en n_steps_out=1.

Om de trainingsdata te genereren spelen we het spel vele malen.

Alleen gegevens van unieke spellen

Om ons model te trainen genereren we data door een aantal spellen te spelen. We doen dit met behulp van willekeurige zetten. Dit betekent dat we veel dubbele spellen in onze dataset kunnen hebben, met andere woorden, de dataset is vervuild. Op dit moment zorg ik ervoor dat er geen dubbele partijen zijn, door gebruik te maken van een handtekening van het bord en het eindresultaat.

Een model voor elke zet

Als we een enkel model gebruiken, worden de trainingsgegevens "vervuild" met toekomstige gegevens. Als wij aan zet zijn, willen we weten wat de volgende beste zet is. Alles na die stap vervuilt onze bestaande gegevens. Daarom gebruik ik meerdere modellen, één voor elke stap.

move[n]    model[n] with data upto step[n+1]
move[n+1]  model[n+1] with data upto step[n+2]
etc.

Voor speler 1 betekent dit dat we bij zet[n] model[n] gebruiken dat getraind is met gegevens tot en met zet n+1. Op deze manier kunnen we de beste beschikbare zet kiezen om te doen.

De parameter n_steps_in=2 betekent dat we geen model hebben voor de eerste zet. Wat we doen is de eerste zet een willekeurige zet maken, voor beide spelers.

Ook gebruiken we geen model als er nog maar één zet over is.

Prestatie

Ok, ik heb dit geïmplementeerd. Hoe presteert het? Het trainingsresultaat laat voor alle modellen zien dat de gemiddelde_absolute_error is teruggebracht van ongeveer 0.8 naar 0.6. Niet erg goed.

In de resultaten hieronder heb ik de twee spelers. Een speler kan zijn:

RD: doet willekeurige zetten
NN: doet Neural Network zetten

De eerste speler is speler1, de tweede speler is speler2. Trainingsgegevens worden gegenereerd zoals hierboven beschreven. Het wordt gegenereerd totdat we bijvoorbeeld 1000 x gewonnen-getrokken-verloren = 1000xgewonnen, 1000xverloren, en 1000xgetrokken hebben.

1. RD vs RD

Beide spelers doen willekeurige zetten.

Resultaten van 4 ronden van 1000 spellen:

+-------+-------+-------+----------+-----------+-----------+
| won   | lost  | draw  | won/lost | avg_moves | perc draw |
+-------+-------+-------+----------+-----------+-----------+
|   578 |   293 |   129 |     1.97 |       7.7 |     12.9% |
|   593 |   274 |   133 |     2.16 |       7.7 |     13.3% |
|   590 |   276 |   134 |     2.14 |       7.6 |     13.4% |
|   589 |   296 |   115 |     1.99 |       7.6 |     11.5% |

Dit ziet er niet onredelijk uit. Speler1 begint het spel en heeft dus een voordeel op speler2.