What does GTO aim to achieve?
元数据
- 作者: Tombos21 | 日期: 2022-05-09
- 原始文件: GTOWizard-What-Does-GTO-Aim-to-Achieve.md
摘要
GTO 的目标是创建不可被剥削的固定策略。固定策略 vs 动态策略:GTO 是固定策略——公开你的策略,对手也无法剥削。dEV(纳什距离)衡量解法距均衡的距离。GTO 构建于脆弱剥削潜力的完美平衡之上。
关键要点
- 纳什均衡:公开策略后无人有动机改变
- 固定策略(GTO)不调整;动态策略(剥削)调整应对对手
- Solver 迭代:A 剥削 B → B 剥削 A → 重复至均衡
- dEV = 当前解法 vs 最优剥削策略的 EV 差距
- GTO 和剥削互补:不知基线就不知对手偏离在哪
影响的概念
完整笔记
固定策略 vs 动态策略的哲学区分
这是本文最核心的概念框架。Tombos21 提出了一个思维实验来定义两种策略的本质差异:
固定策略(Fixed Strategy):在相同局面下总是以相同方式游戏范围,不随对手变化而调整。GTO 是固定策略的极致——即使你公开你的整个策略手册,对手也无法找到系统性剥削方法。它的强度不依赖于信息不对称。
动态策略(Dynamic Strategy):根据对手的漏洞持续调整。剥削策略是动态的——它读取对手的范围偏离并针对性反击。这需要持续的情报收集和调整。
思维实验的力量在于极端化:假设对手是全知的(clairvoyant),知道你在任何局面的所有行动频率。面对这样的对手,最优固定策略就是 GTO——最小化所有可被利用的漏洞,防御每一种可能的对抗策略。这意味着 GTO 同时防御过度弃牌的 nit 和过度诈唬的疯子,不需要知道对手具体是哪一种。
纳什均衡的形式化定义与多人池限制
文章给出了纳什均衡的精确描述:任何玩家单方面改变策略都无法提高期望值。“单方面”(unilaterally)这个限定词有重大含义——在多人池中,如果两个对手同时改变策略联合对抗你,纳什均衡(任何策略都如此)可以被剥削。这是多人底池暂无成熟 GTO 解决方案的根本理论障碍。
Solver 迭代过程的细节
文章比其他文章更详细地描述了 Solver 的迭代机制:
- 玩家 A 和 B 从完全随机策略开始(策略空间中任意起点)
- 固定 A,让 B 找到对 A 的最大剥削策略(此步确定 B 的最佳反应函数)
- 固定 B 的新策略,让 A 找到对 B 的最大剥削策略
- 交替重复,每次迭代都是对另一个玩家固定策略的最优剥削
关键认知:Solver 不是直接”求解均衡”,而是通过反复进行剥削计算来逼近均衡。每一步都是一个纯粹的剥削优化问题。均衡是剥削迭代的自然收敛点——当双方都无法再剥削对方时,就到达了纳什均衡。这个过程说明:GTO 是建立在剥削潜力完美平衡之上的——如果一方偏离,另一方可以立即剥削。
dEV:纳什距离的实战含义
文章引入了 dEV 作为衡量进度的指标:
- dEV(delta expected value)= 当前解与最优剥削策略之间的 EV 差距
- 数值越低 → 解法越不可被剥削 → 越接近均衡
- 实践中从不达到 0 dEV,因为越接近均衡越难推进
- GTO Wizard 的解通常精度在 0.2%-0.3% 底池,远超人类可感知的剥削水平
这意味着:追求完美 0 dEV 解在实战中无意义。0.25% 底池的 dEV 意味着你每 400 次该局面才会被剥削 1bb——人类对手根本不可能达到这种剥削精度。这为实用主义 GTO 学习提供了信心:不需要”完美”,足够接近即可获得不可被剥削的实战效果。
GTO 防御的范围从不止于平衡
文章指出,GTO 策略之所以强大,不在于它在任何单一维度达到”最优”,而在于它在所有可能的对抗维度上同时防御。它同时对抗:
- 过度价值导向的对手(通过保持足够的诈唬频率防止对手过度弃牌)
- 过度诈唬的对手(通过保持足够的抓诈频率防止被清空权益)
- 过度被动的对手(通过保持足够的侵略性阻止对手免费实现权益)
- 过度激进的对手(通过混合策略防止对手锁定你的行动模式)
GTO 与剥削的互补性
文章的论证超越了简单的”两者都有用”,给出了精确的逻辑链条:
- GTO → 剥削:只有理解基准(GTO 策略),你才能识别对手的偏离。说某人”太激进”需要一个参照物。
- 剥削 → GTO:只有理解剥削原理,你才能理解为什么 GTO 策略会做出某些看似反直觉的选择。均衡是脆弱的——它建立在精细的剥削潜力平衡之上。如果一方过于被动,另一方就可以停止慢打(trap)。如果一方跟注太多,另一方就可以停止诈唬。
GTO 的本质是防御性的——它保证你不输给任何策略。剥削是进攻性的——它尝试从对手的错误中最大化收益。两者的关系不是对抗而是一体两面:GTO 定义了零基线,剥削定义了偏离方向。
GTO 的被动盈利机制
一个微妙但重要的观察:GTO 策略通过被动方式盈利——每当对手采取 GTO 策略中不存在(或频率不同)的行动,GTO 策略自动获利。你不需要主动调整来利用对手的错误。这与剥削策略形成对比:剥削策略需要主动识别偏离并针对性调整,承担模型错误的风险,但有潜力获取高于 GTO 的收益。
与相关概念的连接
- 本文是 笔记-GTOWizard-什么是GTO 的概念深化版——前者定义 GTO 是什么(What),本文解释 GTO 的目标和原理(Why 和 How)
- 纳什均衡的形式化定义是 概念-纳什平衡 的核心源内容
- dEV 的定义直接支撑 概念-纳什距离 页面
- 固定 vs 动态策略的区分是理解 GTO 方法论的哲学基础,与 笔记-GTOWizard-范围影响策略 中”策略应对范围而非具体手牌”的论点一致
- Solver 的迭代剥削算法解释与 笔记-GTOWizard-无差异三定律 中”无差异原则”构成互补——前者讲 Solver 如何计算,后者讲均衡状态下策略的特征
- 均衡的脆弱性(一方偏离另一方即可剥削)是理解 GTO 防御逻辑的核心



