模仿学习


文档摘要

模仿学习 虽然强化学习不需要有监督学习中的标签数据,但它十分依赖奖励函数的设置。有时在奖励函数上做一些微小的改动,训练出来的策略就会有天差地别。在很多现实场景中,奖励函数并不是一目了然的,奖励函数的设计需要大量的试错和调试过程。幸运的是,我们可以利用人类专家的策略来引导智能体的策略训练,从而加速训练过程。基于这种思想,我们可以从人类专家的轨迹中提取出策略的知识,供智能体学习。 我们可以将这一过程看作是模仿学习 (imitation learning) 研究的模型这一类问题,在模仿学习的框架下,专家能够提供一系列状态动作对 $\{(st, at)\}$,表示专家在 $st$ 状态下采取的动作 $at$。


发布者: 作者: 转发
评论区 (0)
U