基本概念

文档摘要

基本概念本部分主要讲述的基本原理与框架说明概念回顾在强化学习中，智能体（agent）在环境（environment）中与环境进行交互产生样本，并且不断更新自身的策略（policy），以获得最大化的奖励（reward），如下图：图 1 智能体与环境交互的过程以算法为例，如图2所示，智能体在与环境交互的过程中，会不断地产生样本，即，主要包括、、、等等，然后将这些样本存入经验池（experience replay buffer）中，再从经验池中随机采样出一批样本，进行算法更新，更新完之后再产生一批样本，如此循环往复，直到达到终止条件。几乎所有强化学习算法都遵循这个思路，这就是强化学习的基本训练逻辑。