第10章Actor-Critic算法

文档摘要

第 10 章 Actor-Critic 算法 $\qquad$ 在策略梯度的章节中，实际上我们已经开了一部分 $\text{Actor-Critic}$ 算法的头了，本章我们将继续深入探讨 $\text{Actor-Critic}$ 算法。 10.1 策略梯度算法的缺点 $\qquad$ 这里策略梯度算法特指蒙特卡洛策略梯度算法，即 $\text{REINFORCE}$ 算法。相比于 $\text{DQN}$ 之类的基于价值的算法，策略梯度算法有以下优点。适配连续动作空间。在将策略函数设计的时候我们已经展开过，这里不再赘述。适配随机策略。由于策略梯度算法是基于策略函数的，因此可以适配随机策略，而基于价值的算法则需要一个确定的策略。