第11章 模仿学习


文档摘要

第11章 模仿学习 模仿学习(imitation learning,IL) 讨论的问题是,假设我们连奖励都没有,要怎么进行更新以及让智能体与环境交互呢?模仿学习又被称为示范学习(learning from demonstration),学徒学习(apprenticeship learning),观察学习(learning by watching)。在模仿学习中,有一些专家的示范,智能体也可以与环境交互,但它无法从环境里得到任何的奖励,它只能通过专家的示范来学习什么是好的,什么是不好的。其实,在多数情况下,我们都无法从环境里得到非常明确的奖励。例如,如果是棋类游戏或者是电玩,我们将会有非常明确的奖励。


发布者: 作者: 转发
评论区 (0)
U