2.3 时序差分 (TD) 学习:TD(0)、N步TD、TD(λ)


文档摘要

2.3 时序差分 (TD) 学习:TD(0)、N步TD、TD(λ) 想象一下,你正在玩一个大型的策略游戏,你需要不断地做出决策,但直到游戏结束,你才知道自己的策略是好是坏。这就像传统的蒙特卡洛方法,你需要等到“游戏结束”才能进行学习。而TD学习,就像一个拥有“预知未来”能力的智者,它不需要等到游戏结束,就可以在每一步行动后,根据当前观察到的“小奖励”和对“未来”的估算,不断地修正自己的策略。是不是很酷? 2.3 时序差分 (TD) 学习:智慧的先行者 在强化学习的浩瀚星空中,TD学习无疑是一颗闪耀的明星。它巧妙地结合了蒙特卡洛方法的“从经验中学习”和动态规划的“自举(bootstrapping)”思想。所谓“自举”,就是用自己对未来的估计来更新自己当前的估计。


发布者: 作者: 转发
评论区 (0)
U