[Blog] IA contre Humains : le match continue

Par dans

Un événement particulièrement marquant pour le poker et l’intelligence artificielle (IA) s’est produit il a quelques semaines à Pittsburgh, aux États-Unis. Un programme d’intelligence artificielle a battu à plate couture un groupe de joueurs professionnels au No-Limit Texas Hold’em. Un duel historique qui mérite qu'on s'y interesse.

Alex Luneau

L'IA à pas de géant

Les jeux, quels qu’ils soient, ont toujours représenté des étapes clés pour mesurer les progrès de l’IA. Quoi de mieux pour rendre compte de l’efficacité des algorithmes et de la puissance du matériel utilisé que de tester leur capacité face à des champions humains dans différentes disciplines intellectuelles ?

À chaque jeu sa complexité. Voici donc une estimation du nombre total de parties différentes possibles pour chaque jeu :

Puissance 4 : 10^21 (1 suivi de 21 zéro)
Jeu de Dames : 10^31
Échecs : 10^123
Jeu de Go : 10^360
Poker Heads-up Limit-Hold’em : 10^14
Poker Heads-up No-Limit Hold’em : 10^160

Pour mettre ces chiffres en perspective, il y a à peu près 10^80 atomes dans l’univers. Vous pouvez imaginer le challenge que cela représente pour une IA de maitriser ces jeux. Le nombre de configurations différentes rend impossible l'utilisation de la simple force de calcul brute.

Kasparov Deep Blue

Échec et mat, Garry !

La plus grande étape récente fut sûrement franchie en 1997, avec la fameuse défaite du champion du monde d’échecs de l’époque Garry Kasparov contre une IA conçue par IBM : Deep Blue (photo). L’année d’avant, c’est le champion du monde du jeu de Dames qui tombait face à une intelligence artificielle.

Presque aussi marquant et plus proche de nous fut le succès, en mars 2016, du programme Alpha Go contre Lee Sedol, grande star du jeu de Go. De par le nombre phénoménal de configurations possibles, les spécialistes pensaient qu’il restait encore plus de dix ans avant qu’une IA ne soit capable de battre un champion de Go. La machine leur a donné tort.

Apres le succès d’Alpha Go, il était presque acté que le Heads-up No-Limit (HUNL) ne tiendrait plus très longtemps. Néanmoins, le poker reste un jeu à information imparfaite (ou incomplète), contrairement au Go ou aux échecs. On ne sait pas quelles cartes notre adversaire possède. C’est là où il faut faire appel à la théorie des jeux (GTO) pour essayer de « résoudre le jeu ».

Le HUNL restait donc encore un vrai challenge, et serait sûrement l’un des paliers les plus importants jamais franchis dans la recherche sur l’intelligence artificielle. Car après tout, les challenges de la vie réelle ne ressemblent-ils pas tous à des systèmes à informations imparfaites ? Arriver à maitriser un jeu aussi complexe ouvrirait la voie à de nombreuses applications pratiques, dans le but de résoudre quelques-uns des véritables problèmes rencontrés par l’Humanité.

Cepheus & Claudico

Pour ceux qui ne seraient pas au courant, le Heads-up dans son format Limit est déjà résolu, depuis 2015. Le petit malin responsable de cet exploit se nomme Cepheus, et a été conçu par l’université d’Alberta. Vous pouvez d’ailleurs l'affronter (ou simplement tenter de comprendre sa stratégie) en vous rendant sur ce site.

Tuomas Sandholm

Tuomas Sandholm, le papa de Claudico et Libratus

Néanmoins, si vous avez gardé en tête les chiffres ci-dessus, vous savez que la complexité du No-Limit Hold’em n’a RIEN à voir avec celle du Limit Hold’em en termes d’ordre de grandeur des possibilités. Toutes les tentatives précédentes de l’IA contre des joueurs compétents de No-Limit Hold’em se sont d'ailleurs toujours soldées par une victoire écrasante des humains.

La dernière confrontation marquante remonte à l’année dernière, déjà à Pittsburgh. Le programme nommé Claudico a défié sur plusieurs semaines un groupe composé des meilleurs joueurs de HUNL, sur un total de 80 000 mains, pour un prizepool de 100 000 dollars. L’intérêt de faire jouer toute une équipe contre l’IA, plutôt qu’un seul joueur, est de permettre de jouer les 80 000 mains dans un temps raisonnable. Durant la période, les joueurs ont pu échanger chaque soir autour de leur stratégie mais ne pouvaient pas s’entraider pas lorsqu’ ils étaient en train de jouer.

La victoire des humains fut nette, avec un bénéfice de 72 buy-ins. Un résultat pourtant considéré comme un « nul statistique » par Tuomas Sandholm, le papa de Claudico. En effet, l’approche scientifique consiste toujours à donner un intervalle de confiance d'au moins 95% sur le résultat. Au vu de la variance inhérente au poker, il faut un échantillon et un winrate énorme pour obtenir un résultat statistiquement signifiant, comme je l'expliquais dans mon article précédent.

Néanmoins, aux yeux de tous les observateurs compétents, il était clair que même si Claudico avait montré de nets progrès en No-Limit par rapport à l’IA précédente, il lui restait encore beaucoup de failles assez facilement exploitables. Il ne prenait par exemple jamais en compte le concept des blockers et avait du mal à gérer certains petits sizings, comme des mises de 100 dans un pot de 5 000, qui bouleversaient son arbre de décisions.

Libratus Vs Brains

Brains Vs IA

Le casting du dernier match

À peu près deux ans plus tard, en janvier 2017, rebelote : les chercheurs reviennent cette fois à la charge avec une nouvelle IA, Libratus. De nouveau, le duel a lieu face à une équipe assez similaire de top joueurs de HUNL. En revanche, l’échantillon est plus conséquent, 120 000 mains, pour essayer d’obtenir un résultat scientifiquement valable.

Je tiens à confirmer que l’équipe humaine, baptisée pour l’occasion « Brains » (les cerveaux) était de très grande qualité. Même si ses membres restent peu connus du grand public, ils se situent à peu près tous dans le Top 15 des meilleurs joueurs mondiaux de HUNL.

Vous pouvez imaginer qu’avec un laps de temps si court après la dernière défaite sévère de Claudico, Libratus n’était pas vraiment donné favori. Les cotes du marché donnaient mêmes les Brains favoris à 80%.

Comme pour l’affrontement contre Claudico, il était possible de suivre les événements en direct sur Twitch. J’ai donc pu à nouveau observer de près cette compétition. Il y a quelque chose de fascinant à examiner les plays d’une IA qui approche le jeu d’une façon complètement neuve et non humaine. Car même pour un esprit rationnel, il est toujours très dur de s’écarter des plays « standards » sur lesquels la majorité des joueurs de highstakes s’accordent.

Dès les premières heures, de nombreux signes montraient que cette IA était différente. Libratus semblait beaucoup plus raisonnable dans ses fréquences de mises (Claudico utilisait beaucoup trop l’overbet dans certains spots et s'était fait énormément exploiter), tout en gardant un panel de sizings monstrueux dans tous les spots.Très vite, l’équipe humaine a compris que le bot maîtrisait parfaitement la théorie des jeux dans les spots classiques, et pensait ne plus avoir aucune chance de battre l’AI avec un style conventionnel.

Au fil des jours suivants, les Brains tentèrent donc de mettre Libratus dans une situation inconfortable, essayant de trouver des zones potentiellement mal gérées par son arbre de décisions. Une journée, ils ont par exemple décidé de 3-bet 80% du temps, une autre ils ouvraient préflop à hauteur de cinq fois la grosse blinde, une autre ils privilégiant les mises minimums, etc.

Le résultat fut brutal. Aucune stratégie n’a réussi à affaiblir Libratus. Apres 30 jours et 120 000 mains, l’Intelligence Artificielle a écrasé les humains avec un écart de 180 buy-ins, soit un winrate énorme de 15BB/100.

Brain Vs IA Résultats

Des courbes qui parlent d'elles-mêmes

On pourrait peut-être argumenter que les conditions de jeu n’étaient pas « justes » pour les humains. Libratus prenait dès le turn quelques minutes pour prendre sa décision, sur des situations triviales pour des humains. Cela rendait sans doute le grind contre la machine assez frustrant, d’autant plus pour des joueurs habitués à une vitesse de jeu rapide. Si on rajoute le fait qu’ils ont joué près d’un mois, tous les jours, au rythme de huit heures par jour, l’affrontement ne fut clairement pas de tout repos.

Néanmoins, je ne pense pas que ces éléments ont eu un impact décisif sur leur niveau de jeu. Pour en arriver à leur niveau en Heads-up, ces quatre joueurs ont forcément un mental et une éthique de travail exceptionnels, à même de les prémunir contre ces conditions non optimales.

Outside the box

Concernant Libratus, j’ai pu observer quelques-unes de ces armes durant l’affrontement, qui peuvent éventuellement donner des idées à de nombreux joueurs. Je suis d’ailleurs convaincu que le jeu en highstakes va vite évoluer suite à ce challenge.

Gardez en tête que toutes ces tendances sont a priori équilibrées et inexploitables :

Le 3-bet preflop avec différents sizings. Là où la majorité des pros n’ont qu’un seul sizing basé sur la taille des tapis, Libratus fait évoluer ses 3-bets selon sa main. On peut imaginer, par exemple, qu’il veut 3-bet plus cher la majorité du temps avec des paires entre le 9 et Valet - en protection - plutôt qu’avec deux As.

Variation de sizings postflop. J’ai vu Libratus miser en continuation bet au flop aussi bien 20% du pot (dans un pot relancé une seule fois) que placer un overbet pour cinq fois le pot. On peut imaginer qu’une main comme une paire de 7 peut vouloir overbet un flop 2-2-5 pour protection ou qu’une main comme As-Roi veut overbet As-Roi-9 pour value, de par un avantage de range monstrueux dans un pot relancé une seule fois.

Donk bet potentiellement n’importe où. Flop, turn ou river, peu importe l’action ou presque, Libratus va vouloir donk bet un certain pourcentage du temps, pour éviter de se faire exploiter par des tentatives de pot control ou de showdown gratuit.

Ce match devrait aussi réussir à convaincre les gens réticents à étudier le GTO. Libratus est la preuve qu’on peut avoir des winrates énormes, en jouant un poker proche de la perfection basé sur les sizings, la fréquence de mises et la distribution des ranges.

Néanmoins, il ne faut pas oublier que nous sommes humains, et que notre cerveau ne pourra sans doute jamais maîtriser parfaitement un très grand nombre de sizings. Il est sans doute mieux de restreindre un peu la complexité de notre plan de jeu jusqu’à le maîtriser parfaitement, que d’essayer de vouloir tout incorporer, pour au final faire n’importe quoi. 


Alexonmoon

En ligne, il a affronté, et battu les meilleurs joueurs du monde dans toutes les variantes imaginables, pour des enjeux stratosphériques. Au sein du Team Winamax, l’objectif d’Alexandre Luneau est clair : faire la même chose en tournoi live… et s’emparer d’un bracelet de Champion du Monde !

Suivez Alexonmoon sur FacebookSuivez Alexonmoon sur Twitter