3.3.2 想象中的强化学习 (Learning in Imagination) 3.3.2 想象中的强化学习(Learning in Imagination):当模型在“梦里”练出真功夫——一个被低估却致命的时序一致性漏洞与它的手术级修复 你有没有试过这样训练一个世界模型:用VAE压缩观测,用RNN建模隐状态转移,再把策略网络接在隐状态上做PPO更新——一切看起来都很美。损失曲线平滑下降,想象轨迹流畅连贯,智能体在模拟器里跑得比真实环境还快。直到你把它部署到真实机器人上,它第一秒就撞墙,第二秒原地打转,第三秒开始疯狂抖动关节,像一个刚做完脑叶切除手术的舞者。 这不是玄学。