第 9 章 策略梯度 $\qquad$ 本章开始介绍基于策略梯度( $\text{policy-based}$ )的算法,与前面介绍的基于价值( $\text{value-based}$ )的算法(包括 $\text{DQN}$ 等算法)不同,这类算法直接对策略本身进行近似优化。在这种情况下,我们可以将策略描述成一个带有参数$\theta$的连续函数,该函数将某个状态作为输入,输出的不再是某个确定性( $\text{deterministic}$ )的离散动作,而是对应的动作概率分布,通常用 $\pi{\theta}(a|s)$ 表示,称作随机性( $\text{stochastic}$ )策略。 9.