1.3.2 联结主义时代：多智能体强化学习 (MARL) 的兴起

文档摘要

1.3.2 联结主义时代：多智能体强化学习 (MARL) 的兴起 1.3.2 联结主义时代：多智能体强化学习（MARL）的兴起 ——当“集体幻觉”击穿训练稳定性：一个关于策略梯度方差爆炸与中心化 Critics 的实战救火手记凌晨两点十七分，监控告警第三次亮起。不是服务器宕机，不是GPU显存溢出，而是——所有智能体的策略熵在第842轮episode后骤降为0.003，且连续17个episode未回升；与此同时，团队协作成功率从73%断崖式跌至11%，而单智能体局部奖励曲线却依然平滑上扬。这不是模拟器崩溃，也不是代码bug。这是MARL系统在真实产线部署中发出的、最典型的“假性收敛”求救信号——一群聪明的个体，在没有真正学会协作的情况下，默契地达成了某种脆弱的纳什均衡。