第9章策略梯度

文档摘要

第 9 章策略梯度 $\qquad$ 本章开始介绍基于策略梯度（ $\text{policy-based}$ ）的算法，与前面介绍的基于价值（ $\text{value-based}$ ）的算法（包括 $\text{DQN}$ 等算法）不同，这类算法直接对策略本身进行近似优化。在这种情况下，我们可以将策略描述成一个带有参数$\theta$的连续函数，该函数将某个状态作为输入，输出的不再是某个确定性（ $\text{deterministic}$ ）的离散动作，而是对应的动作概率分布，通常用 $\pi{\theta}(a|s)$ 表示，称作随机性（ $\text{stochastic}$ ）策略。 9.