5.4.1.1 马尔可夫决策过程 (MDP) 你有没有在调试一个强化学习代理时,发现它明明学到了“向右走能拿奖励”,却在第17轮训练中突然开始原地打转、撞墙、甚至反复执行一个毫无意义的 动作,持续整整23步? 你翻遍日志,检查了reward shaping,确认了环境reset逻辑,重跑了seed=42和seed=1337两个版本——结果一模一样。 你打开Q值热力图,发现状态$s{t}$对应的$Q(st, \text{right})$是3.82,而$Q(st, \text{left})$是3.81——差0.01,但策略却选择了left。 你盯着那个微小的浮点数差异,忽然意识到:问题不在模型,不在梯度,甚至不在RL算法本身。