1.3.2 联结主义时代:多智能体强化学习 (MARL) 的兴起


文档摘要

1.3.2 联结主义时代:多智能体强化学习 (MARL) 的兴起 1.3.2 联结主义时代:多智能体强化学习(MARL)的兴起 ——当“集体幻觉”击穿训练稳定性:一个关于策略梯度方差爆炸与中心化 Critics 的实战救火手记 凌晨两点十七分,监控告警第三次亮起。 不是服务器宕机,不是GPU显存溢出,而是——所有智能体的策略熵在第842轮episode后骤降为0.003,且连续17个episode未回升;与此同时,团队协作成功率从73%断崖式跌至11%,而单智能体局部奖励曲线却依然平滑上扬。 这不是模拟器崩溃,也不是代码bug。这是MARL系统在真实产线部署中发出的、最典型的“假性收敛”求救信号——一群聪明的个体,在没有真正学会协作的情况下,默契地达成了某种脆弱的纳什均衡。


发布者: 作者: 转发
评论区 (0)
U