第13章SAC算法


文档摘要

第 13 章 SAC 算法 $\qquad$ 本章开始介绍最后一种经典的策略梯度算法,即 $\text{Soft Actor-Critic}$ 算法,简写为 $\text{SAC}$ 。相比于前两个算法,$\text{SAC}$ 算法要更为复杂,因此本章涉及的公式推导也要多很多,但是最后的结果还是相对简洁的。因此读者可以根据自己的需求选择性阅读,只需要关注伪代码中变量的涵义以及结果公式即可。$\text{SAC}$ 算法是一种基于最大熵强化学习的策略梯度算法,它的目标是最大化策略的熵,从而使得策略更加鲁棒。


发布者: 作者: 转发
评论区 (0)
U