第四章:无模型学习:蒙特卡洛与时序差分 第四章:无模型学习:蒙特卡洛与时序差分 在之前的章节中,我们假设智能体对环境有完整的了解,即环境的模型是已知的。然而,在现实世界中,这种情况往往是不存在的。我们无法事先知道环境的转移概率 和奖励函数 。因此,我们需要学习在没有环境模型的情况下进行决策。本章将介绍两种主要的无模型学习方法:蒙特卡洛(Monte Carlo, MC)方法和时序差分(Temporal Difference, TD)学习。 4.1 蒙特卡洛(Monte Carlo, MC)方法 蒙特卡洛方法是一种基于采样的学习方法。它通过模拟完整的 episodes(从起始状态到终止状态的完整轨迹)来估计价值函数。MC 方法的核心思想是:一个状态的价值是该状态之后所获得的平均回报。 4.1.