6.2.1 独立学习 (Independent Learning):IQL 的不稳定性问题 6.2.1 独立学习(Independent Learning):IQL 的不稳定性问题——不是收敛慢,是“假收敛”在演戏 你有没有调试过这样一个场景: 训练曲线看起来漂亮得让人想截图发朋友圈——Q值稳步上升、loss平滑下降、episode reward 单调爬升; 可一旦把策略导出,在真实环境中跑三轮,就发现 agent 像喝醉一样原地转圈、反复撞墙、对高价值目标视而不见; 更诡异的是,换一批 seed 重训,reward 曲线几乎一模一样,但行为却天差地别——同一张地图,一个 seed 学出会绕开障碍物的路径,另一个 seed 却固执地用头撞第7号柱子,连续137步。 这不是玄学。