模仿学习

文档摘要

模仿学习虽然强化学习不需要有监督学习中的标签数据，但它十分依赖奖励函数的设置。有时在奖励函数上做一些微小的改动，训练出来的策略就会有天差地别。在很多现实场景中，奖励函数并不是一目了然的，奖励函数的设计需要大量的试错和调试过程。幸运的是，我们可以利用人类专家的策略来引导智能体的策略训练，从而加速训练过程。基于这种思想，我们可以从人类专家的轨迹中提取出策略的知识，供智能体学习。我们可以将这一过程看作是模仿学习 (imitation learning) 研究的模型这一类问题，在模仿学习的框架下，专家能够提供一系列状态动作对 $\{(st, at)\}$，表示专家在 $st$ 状态下采取的动作 $at$。