5.2 模仿学习 (Imitation Learning)

文档摘要

5.2 模仿学习 (Imitation Learning) 第五章：学习范式与数据驱动（The "Learning"） 5.2 模仿学习（Imitation Learning）：从示范中“长出”策略的工程实践你有没有试过教一个刚学会走路的孩子系鞋带？不是靠公式推导，不是靠奖励函数设计，而是蹲下来，慢动作演示三次，手把手扶住他的手指，再退半步让他自己试——他歪歪扭扭打了个死结，你笑着点头，又把绳子解开，重来。这个过程没有梯度、没有贝尔曼方程、没有策略迭代，却实实在在地完成了知识迁移。模仿学习，就是让机器也经历这样一种“具身性学徒制”：不求最优解，但求可复现；不依赖环境反馈，而依赖人类行为的时空轨迹。它不是强化学习的简化版，而是一条独立、务实、在工业落地中愈发不可替代的技术路径。