5.2.1 行为克隆 (Behavior Cloning)


文档摘要

5.2.1 行为克隆 (Behavior Cloning) 5.2.1 行为克隆(Behavior Cloning):当“学得像”不等于“跑得稳”——一个被低估的分布偏移陷阱与它的外科手术式修复 你有没有遇到过这样的时刻? 模型在验证集上准确率98.7%,MSE低到让人心跳加速;回放轨迹时,前3秒方向盘平滑如丝,第4秒突然猛打满舵撞上路肩;再试一次,它优雅地绕过障碍,却在下一个直角弯凭空刹停——仿佛驾驶员在那一刻失忆了。 这不是玄学,也不是数据噪声作祟。这是行为克隆最沉默、最顽固、也最容易被误判为“训练不足”的病灶:策略分布与专家演示分布之间的隐性断裂。


发布者: 作者: 转发
评论区 (0)
U