第11章DDPG算法

文档摘要

第 11 章 DDPG 算法 $\qquad$ 自本章开始到接下来的两章，我们将介绍一些非常经典的基于策略梯度的算法，包括 $\text{DDPG}$、 $\text{TD3}$、 $\text{PPO}$、$\text{SAC}$ 等算法。这些算法实现方式各不相同，也各有特色，因此每类算法都单独形成一个章节来展开。同时它们也是目前强化学习实践中十分常用的一些策略梯度算法，请读者务必熟练掌握。 $\qquad$ 本章先讲 $\text{DDPG}$ 算法和 $\text{TD3}$ 算法，其中后者是在前者的基础上做了一些优化。严格来说，$\text{DDPG}$ 算法被提出的初衷其实是 $\text{DQN}$ 算法的一个连续动作空间版本扩展。