第 10 章 Actor-Critic 算法 $\qquad$ 在策略梯度的章节中,实际上我们已经开了一部分 $\text{Actor-Critic}$ 算法的头了,本章我们将继续深入探讨 $\text{Actor-Critic}$ 算法。 10.1 策略梯度算法的缺点 $\qquad$ 这里策略梯度算法特指蒙特卡洛策略梯度算法,即 $\text{REINFORCE}$ 算法。 相比于 $\text{DQN}$ 之类的基于价值的算法,策略梯度算法有以下优点。 适配连续动作空间。在将策略函数设计的时候我们已经展开过,这里不再赘述。 适配随机策略。由于策略梯度算法是基于策略函数的,因此可以适配随机策略,而基于价值的算法则需要一个确定的策略。