6.3 Actor-Critic方法简介


文档摘要

6.3 Actor-Critic方法简介 6.3 Actor-Critic方法简介 Actor-Critic方法是强化学习中一种重要的策略优化算法,它结合了策略梯度(Policy Gradient)和时序差分(Temporal Difference,TD)学习的优点。简单来说,Actor-Critic方法同时学习一个策略(Actor)和一个价值函数(Critic),Actor负责决策,Critic负责评估Actor的决策好坏,并指导Actor的改进。 6.3.1 Actor-Critic方法的核心思想 纯粹的策略梯度方法,例如REINFORCE,虽然简单易懂,但其方差通常较高,需要大量的采样才能获得稳定的策略更新。


发布者: 作者: 转发
评论区 (0)
U