8.2.2 标准基准:SMAC (StarCraft Multi-Agent Challen...


文档摘要

8.2.2 标准基准:SMAC (StarCraft Multi-Agent Challenge), Hanabi Challenge 当 Hanabi 的“沉默协作”撞上 SMAC 的“战场混沌”:一个被忽略的观测对齐陷阱与它的三行修复方案 你有没有试过,在 Hanabi Challenge 上训出一个看似完美的策略——它能稳定打出 24.9 分,离理论最优仅差 0.1;可一旦把同一套网络结构、同一套 RL 框架、甚至同一份超参配置,原封不动迁移到 SMAC 的 3m 地图上,Agent 瞬间变成“战场幽灵”:不移动、不攻击、甚至在敌方单位贴脸时仍固执地执行上一帧的 idle 动作?


发布者: 作者: 转发
评论区 (0)
U