5.2.2 交互式模仿学习 (Dagger 等)

文档摘要

5.2.2 交互式模仿学习 (Dagger 等) 5.2.2 交互式模仿学习（Dagger 等）：当专家策略“说一套做一套”时，如何让 Dagger 不在第3轮就崩溃？——一个被低估的 rollout 策略缺陷与可复用的动态置信度裁剪方案你训练完第一个行为克隆模型，把它放进仿真环境里跑一圈——它稳稳停在红灯前。你心头一热，把模型导出、部署、写进周报。第二天，它在十字路口左转时径直撞上隔离墩。不是数据不够，不是网络太浅，也不是学习率调错了。是 Dagger 的 rollout 过程，在第三轮迭代中，悄悄把“错误但自信”的轨迹塞进了训练集——而你的监督信号，还在忠实地复制那个错误动作。这场景，我见过七次。