6.1.2 收益函数:合作 (Team)、竞争 (Zero-sum)、混合 (General...


文档摘要

6.1.2 收益函数:合作 (Team)、竞争 (Zero-sum)、混合 (General-sum) 6.1.2 收益函数:合作 (Team)、竞争 (Zero-sum)、混合 (General-sum) ——一个被反复踩坑的 reward shaping 实战切口:零和博弈中“伪合作”导致的策略坍塌与梯度污染 你有没有遇到过这样的场景? 训练一个双智能体围棋对弈系统,A 和 B 分别执黑白子;你给 A 的 reward 是“赢 +1,输 -1,平局 0”,B 的 reward 则机械地取反(即 $rB = -rA$)。逻辑上天衣无缝——这是教科书级的 zero-sum setting。可训练跑起来后,A 的胜率从初始的 50% 慢慢爬升到 62%,接着卡在 63% 不动了;


发布者: 作者: 转发
评论区 (0)
U