6.1.2 收益函数：合作 (Team)、竞争 (Zero-sum)、混合 (General...

文档摘要

6.1.2 收益函数：合作 (Team)、竞争 (Zero-sum)、混合 (General-sum) 6.1.2 收益函数：合作 (Team)、竞争 (Zero-sum)、混合 (General-sum) ——一个被反复踩坑的 reward shaping 实战切口：零和博弈中“伪合作”导致的策略坍塌与梯度污染你有没有遇到过这样的场景？训练一个双智能体围棋对弈系统，A 和 B 分别执黑白子；你给 A 的 reward 是“赢 +1，输 -1，平局 0”，B 的 reward 则机械地取反（即 $rB = -rA$）。逻辑上天衣无缝——这是教科书级的 zero-sum setting。可训练跑起来后，A 的胜率从初始的 50% 慢慢爬升到 62%，接着卡在 63% 不动了；