第六章：策略梯度方法

文档摘要

第六章：策略梯度方法第六章：策略梯度方法在强化学习中，我们通常希望训练一个智能体，使其能够在给定的环境中做出最优决策。前几章我们讨论了基于价值的方法，如 Q-learning 和 SARSA，这些方法通过学习价值函数来间接指导策略。本章将介绍另一类方法：策略梯度方法。这类方法直接学习策略，无需显式地估计价值函数。 6.1 策略梯度思想 6.1.1 策略的目标策略梯度方法的核心思想是直接优化策略。策略 π(a|s; θ) 定义了在给定状态 s 下，智能体采取动作 a 的概率。