ポーカーに使えるゲーム理論入門 — ナッシュ均衡・ミニマックス・混合戦略

🎲 ゲーム理論とは何か？

ゲーム理論は、合理的なエージェント間の戦略的意思決定を数学的に研究する学問だ。「自分の結果が他者の行動に依存する場合、最善の戦略は何か？」という問いに答える。

ポーカーはゲーム理論と相性が抜群だ：

複数のプレイヤーの利得が相互依存している
隠れた情報を持つ順次的な意思決定
テーブルでのゼロサム（誰かが勝った1ドルは別のプレイヤーから来る）
あなたの戦略に適応する合理的な相手

ゼロサムゲーム

ゼロサムゲームでは、あるプレイヤーの利得は別のプレイヤーの損失と正確に等しい。総利得は常にゼロになる：

$$\sum_{i} u_i(\sigma) = 0 \quad \text{すべての戦略プロファイル } \sigma \text{ に対して}$$

キャッシュゲームのポーカー（レーキを無視した場合）はゼロサムだ。これには深い含意がある：常に最適な搾取不可能な戦略 — ナッシュ均衡 — が存在する。

ゼロサム vs ポジティブサム

ヘッズアップポーカーは完全なゼロサム。マルチプレイヤーポーカーは技術的には全プレイヤー間でゼロサムだが、任意の2プレイヤー間ではそうではない（第3のプレイヤーが他の2人の損失から利益を得られる）。この複雑さが、マルチプレイヤーゲーム理論が2プレイヤー理論より難しい理由だ。

⚖️ ナッシュ均衡

ナッシュ均衡とは、他のすべてのプレイヤーの行動が与えられたとき、どのプレイヤーも一方的に戦略を変えることで期待利得を改善できない戦略プロファイルだ。

形式的には、戦略プロファイル $\sigma^* = (\sigma_1^*, \sigma_2^*, \ldots, \sigma_n^*)$ がナッシュ均衡である条件は、すべてのプレイヤー $i$ に対して：

$$u_i(\sigma_i^*, \sigma_{-i}^*) \geq u_i(\sigma_i, \sigma_{-i}^*) \quad \forall \sigma_i$$

ポーカーへの翻訳

ポーカーでは、ナッシュ均衡戦略（GTO）は次を意味する：あなたがGTOをプレイし、相手もGTOをプレイすると、どちらも相手を搾取できない。相手の戦略を前提に、両者が最適にプレイしている状態だ。

簡単な例：ブラフゲーム

ポットが$10で、$10のベットができるとする。あなたはブラフかバリューベットを選べ、相手はコールかフォールドを選べる。

	相手がコール	相手がフォールド
あなたがバリューベット	+$10を獲得（ベストハンド）	+$10を獲得
あなたがブラフ	-$10を失う	+$10を獲得

常にブラフすると、相手は常にコールしてあなたは負ける。ブラフしないと、相手はコールせず、バリューベットからの利益が減る。均衡には混合が必要 — ある確率でブラフする。

均衡ブラフ頻度（MDF分析から）：ポットサイズベットでは$\frac{1}{3}$の確率でブラフ。相手はコールとフォールドに無差別になる。

ナッシュ均衡 ≠ 最大利益

ナッシュ均衡は搾取不可能な戦略 — どんな相手の戦略に対しても負けないことを保証する。しかし特定の搾取可能な相手に対しては、ナッシュから外れて（搾取的に）プレイする方が多くのEVを得られる。GTOは安全の床であり、天井ではない。

🛡️ ミニマックス戦略

2人零和ゲームでは、ナッシュ均衡はミニマックス戦略と等価だ：最大の損失を最小化する。

$$\sigma_1^* = \arg\max_{\sigma_1} \min_{\sigma_2} u_1(\sigma_1, \sigma_2)$$

相手はあなたの利得を最小化しようとしているので、最悪のケースの結果を最大化する戦略を選ぶ。

ミニマックス定理（フォン・ノイマン、1928年）

すべての2人零和ゲームに対して：

$$\max_{\sigma_1} \min_{\sigma_2} u_1(\sigma_1, \sigma_2) = \min_{\sigma_2} \max_{\sigma_1} u_1(\sigma_1, \sigma_2)$$

この定理は、すべての零和ゲームに一意の最適値が存在することを保証する — 両プレイヤーが混合戦略を使う場合でも。これがGTOポーカーの数学的基盤だ。

実践でのミニマックス：ディフェンスvs攻撃性

ベットに直面したとき、ミニマックスの観点から言えば：ベッターをブラフとバリューベットに無差別にさせるコール頻度を選ぶ。これがまさにMDF（最小ディフェンス頻度）だ：

$$\text{MDF} = \frac{\text{ポット}}{\text{ポット} + \text{ベット}}$$

MDF通りにディフェンスすることで、ミニマックスを実現できる — ブラフのEVをゼロにし、相手がオーバーブラフで搾取することを防ぐ。

🎰 混合戦略 — なぜランダム化するのか？

純粋戦略とは、同じ状況で常に同じ行動をとることだ。混合戦略とは、特定の確率で行動間をランダム化することを意味する。

純粋戦略が失敗する理由

フロップで常にトップペアをコンティニュエーションベットするとする。すると相手は：

ツーペア以上でレイズして最大バリューを引き出せる
あなたのレンジが狭いことを知っているので、ドローでフロートできる
ボトムペアはすぐにフォールドできる

予測可能性が搾取可能になる。混合戦略がこれを防ぐ。

無差別原理

ナッシュ均衡において、プレイヤーが行動AとBを混合する場合、両方の行動は等しい期待値を持たなければならない。どちらかが高いEVを持てば、最適戦略はそれを100%プレイすることになる。

$$EV(\text{ベット}) = EV(\text{チェック}) \implies \text{混合が最適}$$

これがソルバーアウトプットの背後にある基本原理だ。ソルバーが「ベット60%、チェック40%」と言うとき、それはその頻度で両方の行動が相手の反応を前提に等しく収益性があることを意味する。

混合戦略の実践例

リバーでトップペア・セカンドキッカーを持っている。ソルバーは「ポットベット30%、ハーフポットベット50%、チェック20%」と言う。

この混合にはいくつかの目的がある：

異なるサイジングが異なる相手レンジからバリューを引き出す
一部のトップペアをチェックすることでチェックレンジのバランスを取る
サイジングだけでハンドストレングスを知ることを防ぐ

混合戦略の実装

テーブルでは、ホールカードの値をランダム化デバイスとして使って混合戦略を近似できる。例えば「キッカーが9以上なら、ポットベット。それ以外はチェック。」これで毎ハンド意識的にランダム化しなくても、おおよそ正しい頻度を達成できる。

👑 支配戦略と被支配行動

厳密に支配的な戦略

相手が何をしようとも、他のすべての行動より良い利得をもたらす行動は厳密に支配的だ。ポーカーでは、プリフロップで被支配ハンドをフォールドすること（例：アーリーポジションで72o）はほぼ支配戦略 — 相手の行動に関わらず最善だ。

排除すべき被支配行動

被支配戦略の反復排除はゲーム分析を単純化する。ポーカーでは：

相手が決してフォールドしない場合にリバーでブラフレイズしない（コールまたはフォールドに被支配）
相手が決してベットしない場合にナッツをスロープレイしない（自分でベットすることに被支配）
エクイティゼロかつインプライドオッズゼロでコールしない（フォールドに被支配）

囚人のジレンマとの関係

古典的なゲーム理論の「囚人のジレンマ」は、個人的に合理的な決定がいかにして集合的に悪い結果をもたらすかを示す。マルチウェイポーカーのポットでは、この比喩が当てはまる：2人のプレイヤーが両方ともドライサイドポットにベットすることは、1人がベットして1人がフォールドする場合と比べ、両者のEVを損なう可能性がある。

重要なポイント

ゲーム理論はどのカードをプレイするかを教えるのではなく、戦略的な相互作用についての思考法を教える。ナッシュ均衡は搾取不可能なベースラインを定義する。混合戦略は搾取を防ぐ。これらの概念を理解することで、厳密なポーカー思考の精神的枠組みが構築される。