5.2 模仿学习 (Imitation Learning) 第五章:学习范式与数据驱动(The "Learning") 5.2 模仿学习(Imitation Learning):从示范中“长出”策略的工程实践 你有没有试过教一个刚学会走路的孩子系鞋带?不是靠公式推导,不是靠奖励函数设计,而是蹲下来,慢动作演示三次,手把手扶住他的手指,再退半步让他自己试——他歪歪扭扭打了个死结,你笑着点头,又把绳子解开,重来。这个过程没有梯度、没有贝尔曼方程、没有策略迭代,却实实在在地完成了知识迁移。模仿学习,就是让机器也经历这样一种“具身性学徒制”:不求最优解,但求可复现;不依赖环境反馈,而依赖人类行为的时空轨迹。它不是强化学习的简化版,而是一条独立、务实、在工业落地中愈发不可替代的技术路径。