6.2.2.2 多智能体策略梯度：MADDPG, MAPPO

文档摘要

6.2.2.2 多智能体策略梯度：MADDPG, MAPPO 当MAPPO的actor-critic网络开始“互相抄袭”：一个被忽略却致命的梯度耦合陷阱与解耦式参数隔离实践你有没有在调试MAPPO时，遇到过这样的现象——训练曲线看似平稳上升，但智能体行为却越来越趋同？四个无人机本该分工协作完成围捕，结果全挤在同一个坐标点原地打转；六辆无人车本应形成动态编队穿越交叉口，最后却像被无形丝线牵着，同步左转、同步刹车、同步撞墙。Loss下降得漂亮，reward涨得喜人，可环境里的智能体却活成了彼此的镜像。这不是收敛，这是集体失智。这不是玄学，也不是随机种子没设好。