第10章稀疏奖励-习题

文档摘要

第十章稀疏奖励关键词设计奖励（reward shaping）：当智能体与环境进行交互时，我们人为设计一些奖励，从而“指挥”智能体，告诉其采取哪一个动作是最优的。需要注意的是，这个奖励区别于环境的奖励。其可以提高我们估算Q函数时的准确性。内在好奇心模块（intrinsic curiosity module，ICM）：其代表好奇心驱动这个技术中的增加新的奖励函数以后的奖励函数。课程学习（curriculum learning）：一种广义的用在强化学习中训练智能体的方法，其在输入训练数据的时候，采取由易到难的顺序进行输入，也可以人为设计它的学习过程。这个方法在机器学习和强化学习中普遍使用。

第10章 稀疏奖励-习题

文档摘要

第10章稀疏奖励-习题