What does GTO aim to achieve?

元数据

作者: Tombos21 | 日期: 2022-05-09
原始文件: GTOWizard-What-Does-GTO-Aim-to-Achieve.md

摘要

GTO 的目标是创建不可被剥削的固定策略。固定策略 vs 动态策略：GTO 是固定策略——公开你的策略，对手也无法剥削。dEV（纳什距离）衡量解法距均衡的距离。GTO 构建于脆弱剥削潜力的完美平衡之上。

关键要点

纳什均衡：公开策略后无人有动机改变
固定策略（GTO）不调整；动态策略（剥削）调整应对对手
Solver 迭代：A 剥削 B → B 剥削 A → 重复至均衡
dEV = 当前解法 vs 最优剥削策略的 EV 差距
GTO 和剥削互补：不知基线就不知对手偏离在哪

影响的概念

完整笔记

固定策略 vs 动态策略的哲学区分

这是本文最核心的概念框架。Tombos21 提出了一个思维实验来定义两种策略的本质差异：

固定策略（Fixed Strategy）：在相同局面下总是以相同方式游戏范围，不随对手变化而调整。GTO 是固定策略的极致——即使你公开你的整个策略手册，对手也无法找到系统性剥削方法。它的强度不依赖于信息不对称。

动态策略（Dynamic Strategy）：根据对手的漏洞持续调整。剥削策略是动态的——它读取对手的范围偏离并针对性反击。这需要持续的情报收集和调整。

思维实验的力量在于极端化：假设对手是全知的（clairvoyant），知道你在任何局面的所有行动频率。面对这样的对手，最优固定策略就是 GTO——最小化所有可被利用的漏洞，防御每一种可能的对抗策略。这意味着 GTO 同时防御过度弃牌的 nit 和过度诈唬的疯子，不需要知道对手具体是哪一种。

纳什均衡的形式化定义与多人池限制

文章给出了纳什均衡的精确描述：任何玩家单方面改变策略都无法提高期望值。“单方面”（unilaterally）这个限定词有重大含义——在多人池中，如果两个对手同时改变策略联合对抗你，纳什均衡（任何策略都如此）可以被剥削。这是多人底池暂无成熟 GTO 解决方案的根本理论障碍。

Solver 迭代过程的细节

文章比其他文章更详细地描述了 Solver 的迭代机制：

玩家 A 和 B 从完全随机策略开始（策略空间中任意起点）
固定 A，让 B 找到对 A 的最大剥削策略（此步确定 B 的最佳反应函数）
固定 B 的新策略，让 A 找到对 B 的最大剥削策略
交替重复，每次迭代都是对另一个玩家固定策略的最优剥削

关键认知：Solver 不是直接”求解均衡”，而是通过反复进行剥削计算来逼近均衡。每一步都是一个纯粹的剥削优化问题。均衡是剥削迭代的自然收敛点——当双方都无法再剥削对方时，就到达了纳什均衡。这个过程说明：GTO 是建立在剥削潜力完美平衡之上的——如果一方偏离，另一方可以立即剥削。

dEV：纳什距离的实战含义

文章引入了 dEV 作为衡量进度的指标：

dEV（delta expected value）= 当前解与最优剥削策略之间的 EV 差距
数值越低 → 解法越不可被剥削 → 越接近均衡
实践中从不达到 0 dEV，因为越接近均衡越难推进
GTO Wizard 的解通常精度在 0.2%-0.3% 底池，远超人类可感知的剥削水平

这意味着：追求完美 0 dEV 解在实战中无意义。0.25% 底池的 dEV 意味着你每 400 次该局面才会被剥削 1bb——人类对手根本不可能达到这种剥削精度。这为实用主义 GTO 学习提供了信心：不需要”完美”，足够接近即可获得不可被剥削的实战效果。

GTO 防御的范围从不止于平衡

文章指出，GTO 策略之所以强大，不在于它在任何单一维度达到”最优”，而在于它在所有可能的对抗维度上同时防御。它同时对抗：

过度价值导向的对手（通过保持足够的诈唬频率防止对手过度弃牌）
过度诈唬的对手（通过保持足够的抓诈频率防止被清空权益）
过度被动的对手（通过保持足够的侵略性阻止对手免费实现权益）
过度激进的对手（通过混合策略防止对手锁定你的行动模式）

GTO 与剥削的互补性

文章的论证超越了简单的”两者都有用”，给出了精确的逻辑链条：

GTO → 剥削：只有理解基准（GTO 策略），你才能识别对手的偏离。说某人”太激进”需要一个参照物。
剥削 → GTO：只有理解剥削原理，你才能理解为什么 GTO 策略会做出某些看似反直觉的选择。均衡是脆弱的——它建立在精细的剥削潜力平衡之上。如果一方过于被动，另一方就可以停止慢打（trap）。如果一方跟注太多，另一方就可以停止诈唬。

GTO 的本质是防御性的——它保证你不输给任何策略。剥削是进攻性的——它尝试从对手的错误中最大化收益。两者的关系不是对抗而是一体两面：GTO 定义了零基线，剥削定义了偏离方向。

GTO 的被动盈利机制

一个微妙但重要的观察：GTO 策略通过被动方式盈利——每当对手采取 GTO 策略中不存在（或频率不同）的行动，GTO 策略自动获利。你不需要主动调整来利用对手的错误。这与剥削策略形成对比：剥削策略需要主动识别偏离并针对性调整，承担模型错误的风险，但有潜力获取高于 GTO 的收益。

与相关概念的连接

本文是笔记-GTOWizard-什么是GTO 的概念深化版——前者定义 GTO 是什么（What），本文解释 GTO 的目标和原理（Why 和 How）
纳什均衡的形式化定义是概念-纳什平衡的核心源内容
dEV 的定义直接支撑概念-纳什距离页面
固定 vs 动态策略的区分是理解 GTO 方法论的哲学基础，与笔记-GTOWizard-范围影响策略中”策略应对范围而非具体手牌”的论点一致
Solver 的迭代剥削算法解释与笔记-GTOWizard-无差异三定律中”无差异原则”构成互补——前者讲 Solver 如何计算，后者讲均衡状态下策略的特征
均衡的脆弱性（一方偏离另一方即可剥削）是理解 GTO 防御逻辑的核心

JoyPoker

笔记-GTOWizard-GTO目标