第12章PPO算法

文档摘要

第 12 章 PPO 算法 $\qquad$ 本章我们开始讲解强化学习中比较重要的 $\text{PPO}$ 算法，它在相关应用中有着非常重要的地位，是一个里程碑式的算法。不同于 $\text{DDPG}$ 算法，$\text{PPO}$ 算法是一类典型的 $\text{Actor-Critic}$ 算法，既适用于连续动作空间，也适用于离散动作空间。 $\qquad$ $\text{PPO}$ 算法是一种基于策略梯度的强化学习算法，由 $\text{OpenAI}$ 的研究人员 $\text{Schulman}$ 等人在 $\text{2017}$ 年提出。