簡易モデルでGTOを体感する

何気ない疑問ツイートに余語さんをはじめ多くの方が答えて下さり、自分なりに成長できた気がしてるのでまとめる(実際は全然理解してなかったっていうオチじゃないことを祈る)

 

頭が悪い自分でも納得しやすいように具体値多めでGTOについて考えてみた

 

簡易モデルでGTOを体感

【目的】

・相手の戦略によらず最低限の期待値が得られることを確認する

GTOから外れるとどうexploitされるのか調べる

・相手が純粋戦略をミスった時(混合戦略ではとらない選択肢をとった時)にGTOが保証する最低限の期待値より高い期待値を得られることを確認する

 

【設定】

OOPのレンジはブラフキャッチャー100%

・IPのレンジはナッツ30%エアー70%

・ポットにはすでにP入っている

・ベットサイズはポットベットのPのみ

・レイズはなし

 

めっちゃ単純に設定。レイズまで考えると大変だからルールでなしにしてやった笑

 

GTOを導出】

自明なアクション

OOPは必ずcheck(純粋戦略)

・IPはナッツで必ずbet(純粋戦略)

 

よって

OOPはcheckの純粋戦略→IPのbetに対してcallとfoldの混合戦略

IPはOOPのcheckに対してナッツでbetの純粋戦略、エアーでcheckとbetの混合戦略

 

IPのバリュー対ブラフ=1:x

OOPのcall頻度y

 

とすると、、、数式パソコンで書けない!

f:id:redbrain0817:20190612152912j:plain

てな感じで相手の戦略に依存しないEVを得ることのできるxとyが求まった

当たり前だけど両ポジションのEVの和はPになる

 

ではこのGTO戦略から外れるとどうなるか

相手が最大限にこちらをexploitしてくるものとする

 

OOPのyの値がIPにばれると、IPはそのyに対してOOPのEVが最小となるようなxを戦略として採用する

 

同様にIPのxの値がOOPにばれると、OOPはそのxに対してIPのEVが最小となるようなyを戦略として採用する

 

すると各ポジションのEVは下画像のようになる

f:id:redbrain0817:20190612155819j:plain

こちらをexploitしてくる相手に対してはGTOから外れれば外れるほどEVが低くなってしまうことがわかる

このような相手に対してはGTOで対抗することで最も高いEVを得られる

 

最後に、相手が純粋戦略をミスした時にGTOが保証する期待値より高い期待値が得られることを確認する

 

OOPが頻度aでcheckではなくbetをしてしまうというミスをするときのIPのGTO戦略のEVを計算すると、

0.45P+0.15Pa 

となり、OOPがbetするミスをすればするほど最低保証の期待値(0.45P)より期待値が増大することがわかる

 

同様に、IPが純粋戦略でbetのナッツを頻度aでcheckしてしまうというミスをするときのOOPGTO戦略のEVを計算すると、

0.55P+0.15Pa

となり、こちらも最低期待値0.55Pより相手の相手のミスに応じた増加分の期待値を得られることがわかった

 

【結論】

GTOを使えば最低限の期待値を得ることができ、相手が純粋戦略をミスればその分期待値が上昇することが確認できた

GTOは混合戦略の頻度がGTOから外れている相手に対して上乗せの期待値が得られるわけではないが、こちらもGTOから外れることでexploitすることができる

 

OOPにレイズの選択肢を入れれば混合戦略を外れた選択肢をとったときってことでEVの上昇が確認できると思われるけど頭が悪いので今回はこのくらいにする