5.4.1.2 策略梯度与值函数 5.4.1.2 策略梯度与值函数:当Actor-Critic在CartPole上突然“失忆”——一个被低估的熵崩溃故障与带温度调节的策略熵正则化实战方案 你有没有遇到过这样的场景? 模型在CartPole-v1上训练到平均回合长度198步,眼看着就要稳稳突破200(即完美收敛),却在第327个episode后,骤然崩塌:回合长度从195跳崖式跌至12、7、3……最终卡死在“一推就倒”的状态。Loss曲线平滑下降,价值函数预测稳定,梯度范数正常,KL散度无异常——一切监控指标都在说“我在好好学”,可策略本身,却像患了逆行性遗忘症,彻底忘了怎么平衡杆子。 这不是玄学。