4.2 时序差分（Temporal Difference, TD）学习

文档摘要

4.2 时序差分（Temporal Difference, TD）学习 4.2 时序差分（Temporal Difference, TD）学习时序差分（Temporal Difference, TD）学习是强化学习中一种重要的无模型学习方法。与蒙特卡洛（MC）方法相比，TD 学习能够在不完整的回合中进行学习，并且通常具有更快的收敛速度。它结合了动态规划（DP）的 bootstrapping 思想和蒙特卡洛方法的采样思想，成为一种强大的学习范式。 4.2.1 TD 学习的核心思想 TD 学习的核心思想是：利用当前时刻的估计值来更新前一时刻的估计值。换句话说，TD 学习通过学习从一个状态到另一个状态的转换来更新价值函数，而不需要等到回合结束才进行更新。