第六章:策略梯度方法


文档摘要

第六章:策略梯度方法 第六章:策略梯度方法 在强化学习中,我们通常希望训练一个智能体,使其能够在给定的环境中做出最优决策。前几章我们讨论了基于价值的方法,如 Q-learning 和 SARSA,这些方法通过学习价值函数来间接指导策略。本章将介绍另一类方法:策略梯度方法。这类方法直接学习策略,无需显式地估计价值函数。 6.1 策略梯度思想 6.1.1 策略的目标 策略梯度方法的核心思想是直接优化策略。策略 π(a|s; θ) 定义了在给定状态 s 下,智能体采取动作 a 的概率。


发布者: 作者: 转发
评论区 (0)
U