4.2 时序差分(Temporal Difference, TD)学习


文档摘要

4.2 时序差分(Temporal Difference, TD)学习 4.2 时序差分(Temporal Difference, TD)学习 时序差分(Temporal Difference, TD)学习是强化学习中一种重要的无模型学习方法。与蒙特卡洛(MC)方法相比,TD 学习能够在不完整的回合中进行学习,并且通常具有更快的收敛速度。它结合了动态规划(DP)的 bootstrapping 思想和蒙特卡洛方法的采样思想,成为一种强大的学习范式。 4.2.1 TD 学习的核心思想 TD 学习的核心思想是:利用当前时刻的估计值来更新前一时刻的估计值。 换句话说,TD 学习通过学习从一个状态到另一个状态的 转换 来更新价值函数,而不需要等到回合结束才进行更新。


发布者: 作者: 转发
评论区 (0)
U