Understanding Nash Distance

元数据

解释 Solver 输出中”为什么低 EV 行动被选择”的谜题。核心：Solver 未被解到完美精度 → 存在求解器噪音。混合行动的 EV 差异 = 噪音（非真实差异）。解到完美精度后，所有混合行动 EV 将完全相等。 dEV 衡量解法距均衡的距离。

博弈论的硬性法则：在完美纳什均衡中，当一个手牌混合两个或多个行动时，这些行动的EV必须完全相等。否则你就是在刻意选择一个更差的策略，这与均衡的定义矛盾。均衡策略永远不会”为了平衡而牺牲EV”——平衡本身就是最大化EV的结果。

这是理解Solver输出的理论基石。当你看到一个手牌同时check和bet，且两个行动的EV不相等时，那不是策略设计如此，而是求解未完成的表现。

GTO解法并非解到完美精度，而是解到某个可剥削性阈值。GTO Wizard的精度通常在0.2%-0.3%底池。这意味什么？

以BTN vs BB场景为例，底池5.5BB。最大可剥削性 = 0.3% x 5.5 = 0.017BB/手。这个误差远超人类能够利用的水平。换句话说，就算你知道怎么剥削，你也赚不到几分钱。

Solver噪音就是这种不完美求解的直接产物——手牌不总是选择最高EV的行动。如果解到完美精度，所有噪音都会消失，所有混合行动的EV将完全相等。

一个特殊说明：当你选择一个从未被采用的行动线时，EV差异可能巨大。这是因为Solver在求解早期就停止计算那些被支配（0%频率）的线，以提升效率。这些线的策略和EV准确度较低，但这不影响你学习的价值。

dEV = 最优剥削策略 vs 当前解法之间的EV差距。它衡量的是当前解法距离完美均衡还有多远。

dEV越小越好，但有实际限制：

针对当前的对手策略，最高EV行动确实是最好的。但如果你总是用A7o check（因为它的EV看起来最高），对手理论上可以调整策略使得check变得不那么好——Solver混合是为了保持不可剥削性。

如果一个手牌以低频混合某个行动（比如<3.5%频率），随着精度提升，这种低频行动通常会消失并变成更低EV。这是GTO Wizard将<3.5%频率标记为”不准确”的原因。

第二个例子中，A7o混合跟注和弃牌，跟注比弃牌高约1.7BB。乍看差异很大。但考虑背景：跟注后底池将达200BB。1.8BB的误差仅占底池的约0.9%。

大底池放大绝对数字，但不改变百分比误差。 一个1%的误差在小底池看起来微不足道，在大底池看起来像巨大差异——这是Solver学习中最常见的视觉陷阱。

如果跟注所有边缘抓诈牌，你会过度跟注而变得可被剥削——价值型对手会狠狠惩罚你。

简化游戏树会导致人为失真——Solver会利用树的局限性产生不真实的策略。比如，如果你只给Solver两个下注尺度，它会在这两个尺度中找最优，但真实均衡可能有三个尺度。

使用更丰富的树（更多下注尺度、更多加注选项）虽然求解更慢，但产生的策略更接近真实博弈。这是GTO Wizard选择复杂树+适度精度而非简单树+高精度的原因。