6.2.2.2 多智能体策略梯度:MADDPG, MAPPO 当MAPPO的actor-critic网络开始“互相抄袭”:一个被忽略却致命的梯度耦合陷阱与解耦式参数隔离实践 你有没有在调试MAPPO时,遇到过这样的现象——训练曲线看似平稳上升,但智能体行为却越来越趋同?四个无人机本该分工协作完成围捕,结果全挤在同一个坐标点原地打转;六辆无人车本应形成动态编队穿越交叉口,最后却像被无形丝线牵着,同步左转、同步刹车、同步撞墙。Loss下降得漂亮,reward涨得喜人,可环境里的智能体却活成了彼此的镜像。这不是收敛,这是集体失智。 这不是玄学,也不是随机种子没设好。