What does GTO aim to achieve?

元数据

摘要

GTO 的目标是创建不可被剥削的固定策略。固定策略 vs 动态策略:GTO 是固定策略——公开你的策略,对手也无法剥削。dEV(纳什距离)衡量解法距均衡的距离。GTO 构建于脆弱剥削潜力的完美平衡之上。

关键要点

  1. 纳什均衡:公开策略后无人有动机改变
  2. 固定策略(GTO)不调整;动态策略(剥削)调整应对对手
  3. Solver 迭代:A 剥削 B → B 剥削 A → 重复至均衡
  4. dEV = 当前解法 vs 最优剥削策略的 EV 差距
  5. GTO 和剥削互补:不知基线就不知对手偏离在哪

影响的概念

完整笔记

固定策略 vs 动态策略的哲学区分

这是本文最核心的概念框架。Tombos21 提出了一个思维实验来定义两种策略的本质差异:

固定策略(Fixed Strategy):在相同局面下总是以相同方式游戏范围,不随对手变化而调整。GTO 是固定策略的极致——即使你公开你的整个策略手册,对手也无法找到系统性剥削方法。它的强度不依赖于信息不对称。

动态策略(Dynamic Strategy):根据对手的漏洞持续调整。剥削策略是动态的——它读取对手的范围偏离并针对性反击。这需要持续的情报收集和调整。

思维实验的力量在于极端化:假设对手是全知的(clairvoyant),知道你在任何局面的所有行动频率。面对这样的对手,最优固定策略就是 GTO——最小化所有可被利用的漏洞,防御每一种可能的对抗策略。这意味着 GTO 同时防御过度弃牌的 nit 和过度诈唬的疯子,不需要知道对手具体是哪一种。

纳什均衡的形式化定义与多人池限制

文章给出了纳什均衡的精确描述:任何玩家单方面改变策略都无法提高期望值。“单方面”(unilaterally)这个限定词有重大含义——在多人池中,如果两个对手同时改变策略联合对抗你,纳什均衡(任何策略都如此)可以被剥削。这是多人底池暂无成熟 GTO 解决方案的根本理论障碍。

Solver 迭代过程的细节

文章比其他文章更详细地描述了 Solver 的迭代机制:

  1. 玩家 A 和 B 从完全随机策略开始(策略空间中任意起点)
  2. 固定 A,让 B 找到对 A 的最大剥削策略(此步确定 B 的最佳反应函数)
  3. 固定 B 的新策略,让 A 找到对 B 的最大剥削策略
  4. 交替重复,每次迭代都是对另一个玩家固定策略的最优剥削

关键认知:Solver 不是直接”求解均衡”,而是通过反复进行剥削计算来逼近均衡。每一步都是一个纯粹的剥削优化问题。均衡是剥削迭代的自然收敛点——当双方都无法再剥削对方时,就到达了纳什均衡。这个过程说明:GTO 是建立在剥削潜力完美平衡之上的——如果一方偏离,另一方可以立即剥削

dEV:纳什距离的实战含义

文章引入了 dEV 作为衡量进度的指标:

  • dEV(delta expected value)= 当前解与最优剥削策略之间的 EV 差距
  • 数值越低 → 解法越不可被剥削 → 越接近均衡
  • 实践中从不达到 0 dEV,因为越接近均衡越难推进
  • GTO Wizard 的解通常精度在 0.2%-0.3% 底池,远超人类可感知的剥削水平

这意味着:追求完美 0 dEV 解在实战中无意义。0.25% 底池的 dEV 意味着你每 400 次该局面才会被剥削 1bb——人类对手根本不可能达到这种剥削精度。这为实用主义 GTO 学习提供了信心:不需要”完美”,足够接近即可获得不可被剥削的实战效果。

GTO 防御的范围从不止于平衡

文章指出,GTO 策略之所以强大,不在于它在任何单一维度达到”最优”,而在于它在所有可能的对抗维度上同时防御。它同时对抗:

  • 过度价值导向的对手(通过保持足够的诈唬频率防止对手过度弃牌)
  • 过度诈唬的对手(通过保持足够的抓诈频率防止被清空权益)
  • 过度被动的对手(通过保持足够的侵略性阻止对手免费实现权益)
  • 过度激进的对手(通过混合策略防止对手锁定你的行动模式)

GTO 与剥削的互补性

文章的论证超越了简单的”两者都有用”,给出了精确的逻辑链条:

  1. GTO → 剥削:只有理解基准(GTO 策略),你才能识别对手的偏离。说某人”太激进”需要一个参照物。
  2. 剥削 → GTO:只有理解剥削原理,你才能理解为什么 GTO 策略会做出某些看似反直觉的选择。均衡是脆弱的——它建立在精细的剥削潜力平衡之上。如果一方过于被动,另一方就可以停止慢打(trap)。如果一方跟注太多,另一方就可以停止诈唬。

GTO 的本质是防御性的——它保证你不输给任何策略。剥削是进攻性的——它尝试从对手的错误中最大化收益。两者的关系不是对抗而是一体两面:GTO 定义了零基线,剥削定义了偏离方向。

GTO 的被动盈利机制

一个微妙但重要的观察:GTO 策略通过被动方式盈利——每当对手采取 GTO 策略中不存在(或频率不同)的行动,GTO 策略自动获利。你不需要主动调整来利用对手的错误。这与剥削策略形成对比:剥削策略需要主动识别偏离并针对性调整,承担模型错误的风险,但有潜力获取高于 GTO 的收益。

与相关概念的连接

  • 本文是 笔记-GTOWizard-什么是GTO 的概念深化版——前者定义 GTO 是什么(What),本文解释 GTO 的目标和原理(Why 和 How)
  • 纳什均衡的形式化定义是 概念-纳什平衡 的核心源内容
  • dEV 的定义直接支撑 概念-纳什距离 页面
  • 固定 vs 动态策略的区分是理解 GTO 方法论的哲学基础,与 笔记-GTOWizard-范围影响策略 中”策略应对范围而非具体手牌”的论点一致
  • Solver 的迭代剥削算法解释与 笔记-GTOWizard-无差异三定律 中”无差异原则”构成互补——前者讲 Solver 如何计算,后者讲均衡状态下策略的特征
  • 均衡的脆弱性(一方偏离另一方即可剥削)是理解 GTO 防御逻辑的核心