6.2.2.1 值分解方法:VDN, QMIX, QTRAN


文档摘要

6.2.2.1 值分解方法:VDN, QMIX, QTRAN 当 QMIX 的单调性约束开始“咬人”:一个在星际争霸微操场景中救活训练的梯度裁剪实践 你有没有过这样的时刻? 凌晨两点,GPU 显存满载,loss 曲线像心电图一样平稳跳动——但 agent 在《星际争霸 II》的 3m(3 个 Marines 对抗 3 个 Marines)任务里,连续 27000 次 episode 都卡在平均胜率 58.3% 上下浮动 ±0.7%,纹丝不动。


发布者: 作者: 转发
评论区 (0)
U