4.2 基于策略的DRL:REINFORCE、PG (Policy Gradient) 在本章中,我们将聚焦于基于策略的DRL的核心思想与代表算法:REINFORCE和策略梯度(Policy Gradient, PG)。我们将一起探索它们如何直接优化智能体的行为策略,让智能体在未知环境中自主学习、适应并最终达到目标。准备好了吗?让我们一同踏上这段充满挑战与机遇的旅程吧! 4.2 基于策略的DRL:REINFORCE、PG (Policy Gradient) 想象一下,你正在教一个孩子骑自行车。你会怎么做?你会告诉他:“当车子向左倾斜时,把龙头向右转一点;当车子速度太慢时,多蹬几下。”这是一种基于价值的教法,你试图告诉他每个状态下“正确”的动作。