5.3.2 多智能体系统中的对抗博弈 5.3.2 多智能体系统中的对抗博弈:如何在训练中避免“策略坍塌”——一个基于熵正则化的实战修复方案 在多智能体强化学习(Multi-Agent Reinforcement Learning, MARL)的对抗博弈场景中,工程师们常会遭遇一个令人头疼的问题:训练初期智能体行为尚显多样,但随着训练深入,策略却迅速“收敛”到一种单调、重复甚至无效的行为模式。这种现象被称为策略坍塌(Policy Collapse)。它并非真正的收敛,而是一种病态的退化——所有智能体陷入局部最优,彼此之间失去有意义的交互,最终导致整个系统性能停滞甚至倒退。 你是否曾盯着 TensorBoard 上那条逐渐平缓却毫无提升的胜率曲线,心里清楚:这不是胜利,而是僵局?