第11章DDPG算法


文档摘要

第 11 章 DDPG 算法 $\qquad$ 自本章开始到接下来的两章,我们将介绍一些非常经典的基于策略梯度的算法,包括 $\text{DDPG}$、 $\text{TD3}$、 $\text{PPO}$、$\text{SAC}$ 等算法。这些算法实现方式各不相同,也各有特色,因此每类算法都单独形成一个章节来展开。同时它们也是目前强化学习实践中十分常用的一些策略梯度算法,请读者务必熟练掌握。 $\qquad$ 本章先讲 $\text{DDPG}$ 算法和 $\text{TD3}$ 算法,其中后者是在前者的基础上做了一些优化。严格来说,$\text{DDPG}$ 算法被提出的初衷其实是 $\text{DQN}$ 算法的一个连续动作空间版本扩展。


发布者: 作者: 转发
评论区 (0)
U