AIとポーカーの歴史 — Libratus・Pluribus・CFRアルゴリズム

🎯 なぜポーカーはAIにとって究極の挑戦だったのか

チェスや囲碁が先に解かれたのは、それらが完全情報ゲームだからだ — 両プレイヤーがボード全体を見ることができる。ポーカーは根本的に異なる：ホールカードを隠す不完全情報ゲームだ。

これによりポーカーはAIにとって遥かに困難になる：

隠された状態：相手のカードを観測できない
欺瞞：ブラフと戦略の混合が最適解であり、単なる計算ではない
複数ストリートの意思決定：早いストリートの行動が後のストリートに影響する
巨大なゲームツリー：ヘッズアップNLHEには約 $10^{160}$ の意思決定ノードがある

完全情報 vs 不完全情報

チェスでは、Deep Blueは可能な手を正確に計算できた。ポーカーでは最適戦略には意図的なランダム化が含まれる — ブラフすることもあれば、バリューベットすることもある — 相手に読まれないようにするためだ。このランダム化の要件が、決定論的アルゴリズムにとってポーカーを非常に困難にしている。

📅 タイムライン：AIとポーカーの戦い

1997年

Loki と PsOpti — 初期のルールベースシステム

アルバータ大学のコンピューターポーカー研究グループが、手作りのルールとシンプルな相手モデリングを使用した初期ボットを開発。初心者には勝てるが、経験豊富なプレイヤーには簡単に対策される。

2003年

VexbotとGTO近似の始まり

研究者がゲーム理論的均衡の概念をポーカーに応用し始める。簡略化されたゲーム（リミットポーカー、少ないストリート）でナッシュ均衡を近似する初期プログラムが登場。

2007年

CFRアルゴリズムの発明

アルバータ大学のMartin Zinkevichらが反事実後悔最小化（CFR）を発表。このアルゴリズムがすべてを変えた — 各行動での後悔を繰り返し削減することで大規模な不完全情報ゲームを解くことができる。CFRはその後のすべてのポーカーAIの基盤となる。

2015年

Claudico — プロへの最初の本格的な挑戦

カーネギーメロン大学のClaudicoが4人のトッププロと80,000ハンドのNLHEを対戦。プロが統計的にわずかな差で勝利するが、Claudicoは超人的な戦略を見せる：大きなオーバーベット、異常なサイジング。プロたちはそのプレイスタイルに驚かされる。

2017年

Libratus — AIが人間のプロに勝利

Libratus（CMU）が120,000ハンドにわたって世界最高のヘッズアップNLHEスペシャリスト4人を+14.7BB/100ハンドで撃破 — 統計的に決定的な差。Libratusは3つのモジュールを使用：ブループリント戦略、サブゲームソルビング、試合中の自己改善。このフォーマットでトッププロを初めて破ったAIとされる。

2019年

Pluribus — 6人ポーカーに初めて勝利したAI

FacebookのAI研究チームとCMUがPluribusを発表。6人NLHEのトッププロに勝利 — マルチプレイヤーの複雑さからヘッズアップより遥かに困難とされていた形式だ。PluribusはモンテカルロCFR（MCCFR）と限定的な探索深度を使用し、以前のシステムよりはるかに少ない計算資源でこれを達成。

2020年〜

ソルバー時代 — GTOツールがプレイヤーに届く

CFRベースのソルバー（PioSOLVER、GTO+、Simple Postflop）が商業的に利用可能になる。プロおよびシリアスな愛好家がAI由来の戦略を研究するようになる。ハイステークスポーカーの準備ではGTOプレイとソルバーアウトプットが標準となる。

🤖 CFRの仕組み — コアアルゴリズム

反事実後悔最小化（CFR）は現代のすべてのポーカーAIを動かしているブレークスルーアルゴリズムだ。直感的に説明する：

「後悔」という概念

任意の意思決定点で、「後悔（regret）」とは別の行動を選んでいた場合にどれだけ良い結果になっていたかを測る指標だ。CFRはすべての行動での後悔を減らすために、戦略を繰り返し調整する。

$$R^T(a) = \sum_{t=1}^{T} \left( v(a, \sigma^t_{-i}) - v(\sigma^t) \right)$$

$R^T(a)$ は $T$ 回の反復後の行動 $a$ に対する累積後悔、$v(a, \sigma^t_{-i})$ は相手の戦略に対して常に行動 $a$ を取った場合の価値、$v(\sigma^t)$ は現在の戦略の価値。

更新ルール

各反復で、正の後悔を持つ行動は後悔に比例してより頻繁に選ばれる：

$$\sigma^{T+1}(a) = \frac{\max(R^T(a), 0)}{\sum_{a'} \max(R^T(a'), 0)}$$

多くの反復の後、平均戦略はナッシュ均衡に収束する — どのプレイヤーも一方的に行動を変えることで改善できない戦略。

なぜ強力なのか

事前に相手の戦略を知る必要がない
自己対戦で学習 — 人間のデータ不要
十分な反復でナッシュ均衡（GTO）に収束
抽象化によって実際のポーカーの巨大なゲームツリーも処理可能

実践でのCFR

PioSOLVERのようなソルバーは、単一のハンドシナリオでCFRを数百万回反復させる。結果として得られる戦略は正確な混合頻度を処方する — 例えば「ポットサイズベット40%、チェック60%」— これがGTO研究の基礎となる。

🏆 Libratusの内部：3モジュールアーキテクチャ

Libratusは単純なCFRより遥かに効果的にした新しい3パートシステムを使用した：

モジュール1：ブループリント戦略

大会前に、Libratusはベットサイジング空間の粗い抽象化を使ってゲーム全体の近似ナッシュ均衡戦略を計算する。このブループリントは1500万CPUコア時間をかけて事前計算される。

モジュール2：エンドゲームのサブゲームソルビング

対戦中、ターンやリバーに達するたびに、Libratusは抽象バージョンではなく実際のカードを使って正確なサブゲームを再ソルブする。この精細なソルビングが粗いブループリントのエラーを修正する。

モジュール3：自己改善（ブループリントパッチング）

大会中、毎晩Libratusはブループリントから外れた状況を分析し、その特定のノードを一晩で改善する。文字通り、試合中にリアルタイムで自分の弱点を修正していく。

結果：Libratusは120,000ハンドにわたって+14.7bb/100で勝利 — そのステークスのキャッシュゲームで80万ドル以上に相当。

💡 現代のポーカー戦略への影響

AIが人間に教えたこと

AIのアウトプットを研究することで、トッププレイヤーのポーカーに対する考え方が根本的に変わった：

オーバーベット：人間はポット以上のベットをほとんど使わなかった。AIはオーバーベット（1.5〜3倍ポット）がバランスのとれたレンジの一部として戦略的に正しい場合が多いことを示した。
ドンクベット：多くのプロが「悪い」と考えていた。AIは特定のボード/レンジの状況でドンクベットが正解だと示す。
強いハンドのチェック：AIは人間よりも頻繁に非常に強いハンドをチェックし、チェックレンジのバランスを取って搾取を防ぐ。
レンジベースの思考：AIは個々のハンドを孤立して考えることは決してない — レンジと頻度だけで考える。この考え方はエリートプレイヤーに浸透している。
ベットサイジングの多様性：AIは人間が慣れていた以上に多くのサイジングオプションを使用し、ディフェンダーがより複雑なシナリオに対処することを強いる。

ソルバー革命

CFRベースのソルバーの普及がポーカーの学習を変えた。ハイステークスプレイヤーは今やソルバーのアウトプットのレビューとGTO頻度の内面化に何時間も費やす。$1/$2以上のステークスでは、ソルバーを活用したプレイヤーと直感だけのプレイヤーとの差が大幅に広がっている。

あなたのゲームへの応用

AI研究から恩恵を受けるためにソルバーのアウトプットを習得する必要はない。バランスのとれたレンジ、混合戦略、ベットサイジングの意識といった重要な洞察は、ソルバーを実行しなくても戦略的な原則として応用できる。

AIとポーカー：完全な歴史