第三章:强化学习的核心问题:预测与控制 第三章:强化学习的核心问题:预测与控制 强化学习的核心目标是找到一个最优策略,使得智能体在与环境交互的过程中能够获得最大的累积奖励。为了实现这一目标,强化学习需要解决两个核心问题:预测(Prediction)和控制(Control)。预测关注的是评估给定策略的好坏,而控制关注的是寻找最优策略。此外,在寻找最优策略的过程中,智能体还需要处理探索(Exploration)和利用(Exploitation)之间的权衡。 3.1 策略评估(Prediction) 策略评估,也称为预测问题,旨在评估一个给定的策略π的好坏程度。具体来说,策略评估要计算的是在策略π下,从某个状态s开始,或者在某个状态-动作对(s, a)下,智能体能够获得的期望累积奖励。