第1章强化学习基础-习题

文档摘要

第一章强化学习基础关键词强化学习（reinforcement learning，RL）：智能体可以在与复杂且不确定的环境进行交互时，尝试使所获得的奖励最大化的算法。动作（action）：环境接收到的智能体基于当前状态的输出。状态（state）：智能体从环境中获取的状态。奖励（reward）：智能体从环境中获取的反馈信号，这个信号指定了智能体在某一步采取了某个策略以后是否得到奖励，以及奖励的大小。探索（exploration）：在当前的情况下，继续尝试新的动作。其有可能得到更高的奖励，也有可能一无所有。利用（exploitation）：在当前的情况下，继续尝试已知的可以获得最大奖励的过程，即选择重复执行当前动作。

第1章 强化学习基础-习题

文档摘要

第1章强化学习基础-习题