5.2.2 交互式模仿学习 (Dagger 等) 5.2.2 交互式模仿学习(Dagger 等):当专家策略“说一套做一套”时,如何让 Dagger 不在第3轮就崩溃?——一个被低估的 rollout 策略缺陷与可复用的动态置信度裁剪方案 你训练完第一个行为克隆模型,把它放进仿真环境里跑一圈——它稳稳停在红灯前。你心头一热,把模型导出、部署、写进周报。第二天,它在十字路口左转时径直撞上隔离墩。 不是数据不够,不是网络太浅,也不是学习率调错了。 是 Dagger 的 rollout 过程,在第三轮迭代中,悄悄把“错误但自信”的轨迹塞进了训练集——而你的监督信号,还在忠实地复制那个错误动作。 这场景,我见过七次。