Libratus: Wie künstliche Intelligenz jetzt also auch das Pokern dominiert

Von Deep Blue zu Libratus

Künstliche Intelligenz ist den Menschen inzwischen in vielen Strategiespielen überlegen. Der Schachcomputer Deep Blue schlug bereits 1996 Garri Kasparow. Deep Blue konnte aufgrund der Rechenleistung ganz einfach deutlich mehr Stellungen und Züge durchkalkulieren als Kasparow.

Die Überlegenheit der Computer betrifft ebenso alle anderen Spiele, bei denen gute und schlechte Spielzüge oder Siegchancen insgesamt berechnet und bewertet werden können. Und bei denen natürlich der Faktor Glück nicht entscheidend ist (zumindest nicht bei tausenden von gespielten Partien).

Poker galt bisher nicht als ein solches Spiel. Zwar sind die Regeln des Spiels einfach, doch lassen sich die Gewinnchancen nur berechnen, wenn man alle Hände kennt (also auch die Karten der Gegner). Es handelt sich also um ein Spiel mit unvollständigen Informationen. Bisher keine ideale Voraussetzung für künstliche Intelligenz.

 

Libratus: Wie künstliche Intelligenz das Pokern verändert

Das Unbekannte ist der Kerncharakter des Pokerns, dieses archaische. Das Lesen der Gegner, das Bluffen, die Sonnenbrillen.

Profispieler im Pokern pflegen alle ihre eigenen Marotten. Sie sollen helfen, den Bluff der Gegner zu erkennen und den eigenen unkenntlich zu machen. Sie analysieren das Setz- und Spielverhalten der Gegner, ziehen hieraus ihre Schlüsse und versuchen ihre eigene Außenwahrnehmung immer wieder zu ändern (mal spielen sie aggressiv, dann wieder defensiv), um nicht selbst durchschaubar zu werden.

Und genau aufgrund dieses Bluffens galt Poker lange Zeit als eine der letzten Bastionen der Menschen. Keine Chance für Computer. Künstliche Intelligenz mag zwar Schach spielen können, aber bestimmt kein Poker.

Doch auch damit ist es jetzt vorbei. Ein Computerprogramm mit dem Namen Libratus, entwickelt an der Carnegie Mellon University (unter Leitung von Tuomas Sandholm), hat in einem Pokerturnier mit 120.000 gespielten Händen gleich mehrere Profispieler haushoch geschlagen. Die große Anzahl an Händen wurde gespielt, um den Faktor Glück ausschließen zu können.

Ein angenehmer Nebeneffekt: Libratus benötigt im Gegensatz zu vielen Pokerspielern keine Sonnenbrille. Wer weder Emotionen noch Augen hat, braucht für den perfekten Bluff auch keine Brille. Und so sprechen die geschlagenen Pokerspieler tatsächlich davon, dass der Computer auf hervorragende Art und Weise bluffe.

 

Libratus: Wie funktioniert es?

Libratus basiert auf dem Prinzip des bestärkenden Lernens (auch verstärkendes Lernen oder englisch: Reinforcement Learning).

Dabei wird dem Computer nicht erklärt, wann welcher Zug der beste ist. Statt dessen probiert die Maschine selbst aus und erhält bei guten Zügen eine externe „Belohnung“ und bei schlechten Zügen eine „negative Belohnung“ (es handelt sich also um eine „trial and error“ Methode).  So werden gute Züge bestärkt und schlechte Züge vermieden.

Die nächsten Züge erfolgen dabei immer auf Basis der gemachten Erfahrungen. Mit zunehmender Dauer wird Libratus also immer besser. Zudem ist die verfolgte „Spielstrategie“ selbst erlernt und kann sich erheblich von den üblichen Strategien der Profispieler abheben. Insgesamt hat Libratus vor dem Turnier 15 Millionen Stunden gespielt und gelernt.

Das besondere an Libratus sind allerdings zwei andere Merkmale. Erstens das sogenannte „nested endgame solving“:  Nach jeder Aktion im Spiel kalkuliert der Computer die Situation vollständig neu. Eine neue Aktion kann z.B. das Aufdecken einer weiteren Karte oder der Zug eines Gegenspielers sein. Zudem bezieht Libratus dabei auch die bisherigen Fehler des jeweiligen Gegenspielers in die Entscheidung mit ein.

Zweitens das Lernen aus den bisherigen Partien: Jede Nacht während des Turniers spielte Libratus alleine weiter. Der Fokus lag dabei besonders auf den Situationen, in denen die Gegenspieler seine Schwächen ausgenutzt haben. So konnte Libratus jeden Abend seine bisherigen Schwächen abstellen. Die Profispieler bemerkten schnell, dass die am Vortag bei Libratus gefunden Schwächen am nächsten Morgen einfach verschwunden waren. Es muss für die Gegenspieler von Libratus extrem frustrierend gewesen sein.

 

„How much do I have to pay you to play the last 50 hands? Uhhhh, this is so brutal.“

Daniel McAulay, einer der Gegner von Libratus, am letzten Tag zu einem Zuschauer.

 

 

Links:

Profil Tuomas Sandholm

Interview Tuomas Sandholm

0 thoughts to “Libratus: Wie künstliche Intelligenz jetzt also auch das Pokern dominiert”

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.