第 12 章 PPO 算法 $\qquad$ 本章我们开始讲解强化学习中比较重要的 $\text{PPO}$ 算法,它在相关应用中有着非常重要的地位,是一个里程碑式的算法。不同于 $\text{DDPG}$ 算法,$\text{PPO}$ 算法是一类典型的 $\text{Actor-Critic}$ 算法,既适用于连续动作空间,也适用于离散动作空间。 $\qquad$ $\text{PPO}$ 算法是一种基于策略梯度的强化学习算法,由 $\text{OpenAI}$ 的研究人员 $\text{Schulman}$ 等人在 $\text{2017}$ 年提出。