基本概念 本部分主要讲述 的基本原理与框架说明 概念回顾 在强化学习中,智能体(agent)在环境(environment)中与环境进行交互产生样本,并且不断更新自身的策略(policy),以获得最大化的奖励(reward),如下图: 图 1 智能体与环境交互的过程 以 算法为例,如图2所示,智能体在与环境交互的过程中,会不断地产生样本,即 ,主要包括 、 、 、 等等,然后将这些样本存入经验池(experience replay buffer)中,再从经验池中随机采样出一批样本,进行算法更新,更新完之后再产生一批样本,如此循环往复,直到达到终止条件。几乎所有强化学习算法都遵循这个思路,这就是强化学习的基本训练逻辑。