|
|
Fazit
Spielerische Qualität
Der Versuch, so wie er von uns durchgeführt wurde, hat gezeigt, dass Neuronale Netze (allein) nicht in der Lage sind vernünftig und vor allem gewinnbringend Poker zu spielen. Das sehr komplexe Spiel Poker kann nicht nur durch das Setzverhalten des Gegners und das Wissen über die eigenen Karten gewonnen werden, sondern es ist viel mehr eine Strategie notwendig, wie sie durch Neuronale Netze nicht erlernbar ist.
Der Versuch hat gezeigt, dass unser Pokerbot in drei Gesichtspunkten des Spiels besonders schlecht reagiert. Zum ersten ist das Spiel vor dem Flop zu steif, dass heißt es fehlt eine Varianz in den getroffenen Entscheidungen. Meist verfällt der Bot in zwei Extreme – entweder er spielt jede Hand oder er wirft zu viele Hände einfach weg. Auch von der Möglichkeit zu raisen macht er vor dem Flop viel zu wenig gebrauch.
Generell hat es sich gezeigt, dass Erhöhungen im Spiel die zweite große Schwäche im Spiel des Bots sind. Wird gegen ihn erhöht, so wirft er fast jede Hand weg, selbst wenn er Overpairs auf der Hand hält oder sehr gute Potodds besitzt. Diese Potodds bezeichnen Gewinnwahrscheinlichkeiten in Relation zu der Größe der Wetteinsätze und werden von rein mathematisch operierenden Computerintelligenzen wesentlich besser ausgenutzt.
Und wie schon bei den Bemerkungen zur PreFlop Spielphase angedeutet raist das Netz aus unserer Sicht zu wenig, so dass es dem Gegner oft die Möglichkeit gibt billige Karten zu erkaufen.
Besonders enttäuscht hat das Spiel auf dem Turn. Hier trifft das Netz die meisten Fehlentscheidungen. Eine Ursache war hier schwer auszumachen, da wir sie sonst beheben hätten können.
Netze
Trotz das die Netze schon ein recht hohe Komplexität aufweisen wären sie noch um viele Ein- und Ausgabeinformationen erweiterbar gewesen. Beispielsweise ist es recht wichtig zu wissen, wie hoch der Einsatz eines Gegners war und nicht nur welchen Spielzug er getätigt hat. Äquivalent hätte auch das Netz entscheiden können, wie hoch seine Einsätze sein sollen. Jedoch hat sich in der frühen Phase des Netzentwurfes gezeigt, dass diese Spielinformation nur Recht schwer in das Netz einzubauen war und auch der Fehler der Ausgaben wesentlich höher war, als ohne diese zusätzliche Information.
Eine andere mögliche Erweiterung wäre die Ausgabe der beim Gegner vermuteten Karten. Dies würde gleichzeitig eine gewisse Kontrollfunktion bieten, auf welchem Niveau das Netz bereits arbeitet, ist auf der anderen Seite aber nur durch eine sehr große Erfahrung, also eine entsprechende Menge an Trainingsdaten überhaupt möglich.
Ein weiteres Problem besteht darin dem Netz die individuelle Spielweise eines Gegners zu vermitteln. In unserem Fall haben wir das Netz mit der Spielweise eines menschlichen Experten trainiert und erwartet, dass es gegen jede Art von Gegner antreten kann und diesen dann auch in der Lage ist zu schlagen. Dies ist beim Poker allerdings nicht ohne weiteres möglich, da man sein Spiel immer dem jeweiligen Gegner und der jeweiligen Situation anpassen sollte. Auch hier zeigt sich, dass ein Neuronales Netz allein nicht in der Lage sein wird, gewinnbringend gegen andere Gegner anzutreten, da es nicht in der Lage ist Strategien auswendig zu lernen.
Eine Gewisse Möglichkeit würde darin bestehen, nach jedem Spielzug das eigene Spiel zu analysieren und das Netz auf die eben gespielte Hand zu trainieren. Dies hätte den Vorteil, dass man bei einem Showdon sogar die Karten des Gegners mit zum Training des Netzes verwenden könnte. Allerdings müsste dann von der Umgebung des Netzes auch ermittelt werden, was der ideale Spielzug gewesen wäre, um dies dem Netz zu lernen. Dies würde sowohl die Komplexität der Umgebung, als auch die des Netzes deutlich erhöhen und hätte wiederum den Zeit- und Komplexitätsrahmen dieses Beleges gesprengt.
Im Idealfall hätte man also ein während des Spiels selbst lernendes Netz erstellt, welches mit einem gewissen Grundtraining zunächst nur in der Lage gewesen wäre richtige Entscheidungen nach dem Regelwerk zu treffen und dann während des Spiels die Spielweise des Gegners analysiert und sich darauf eingestellt (trainiert) hätte. Ob dies wirklich ein besseres Spiel zur Folge gehabt hätte ließ sich im Rahmen des Beleges nicht ermitteln und lässt sich aus den Resultaten des Beleges auch nur schwer abschätzen.
Sicher ist, dass man für ein solch komplexes Netz wesentlich mehr Trainingsdaten benötigt hätte, da eine noch viel höhere Varianz an Spielentscheidungen getroffen werden müsste. Dies würde wiederum die Zeitdauer erhöhen, bis sich das Netz (eventuell) auf einen Gegner eingestellt hat.
Trainingsdaten
Das Netz mit geeigneten Trainingsdaten zu versorgen war eines der Hauptprobleme dieses Beleges. Um einem Pokernetz die Erfahrungen eines guten Spielers zu vermitteln sind mit Sicherheit weit mehr als 9500 Beispielhände nötig.
Da das Netz wie in den vorangegangen Ausführungen bereits erwähnt keine Strategie erlernen kann, versucht es aus den Trainingsdaten ein gewisses Schema abzuleiten, in welchem sich die Entscheidungen so einordnen lassen, dass der Ausgabefehler in der Summe möglichst klein wird. Der menschliche Spieler hat jedoch die Möglichkeit in ein und derselben Situation völlig unterschiedlich, ja sogar gänzlich gegenteilig zu reagieren. Solche Entscheidungen wird ein Netz ohne strategischen Ansatz nicht verstehen können. Eine solche Situation führt lediglich dazu, dass der Fehler der über die Ausgaben des Netzes entsteht größer wird.
Dasselbe passiert, wenn man Trainingsbeispiel von mehreren Spielern genommen hätte. Auch hier hätte die Experten in gleichen Situation wieder unterschiedlich gehandelt, was beim Netz zu „Verwirrung“ und einem höheren Netto Fehler geführt hätte.
Eine analytische Herangehensweise (dass heißt analysieren aller möglichen Spielsituationen) an das Training der Netze wurde dagegen gar nicht erst versucht. Dies hätte womöglich dazu geführt, dass ein besseres, wenn auch einseitigeres Spiel durch das Netz zustande gekommen wäre. Allerdings macht eine solche Analyse kaum Sinn, da es viel zu viele unterschiedliche Situationen gibt auf die man wiederum unterschiedlich reagieren kann.
Aus diesem Grund haben wir uns entschieden dem Netz eine recht Hohe Anzahl an Beispielhänden vorzusetzen, aus denen es die Grundzüge des Spiels lernen sollte.
Gelungen ist uns damit definitiv Netze zu schaffen, die nach den Regeln korrekt spielen, wenn auch aus unserer Sicht nicht immer die richtigen Entscheidungen getroffen werden.
|