文档摘要

5.2 基于函数逼近的时序差分控制方法 本节介绍如何将函数逼近(Function Approximation)技术应用于时序差分(Temporal Difference, TD)控制算法,特别是 Q-learning 和 SARSA。在大规模或连续状态空间中,传统的表格型方法(Tabular Methods)因内存和计算开销过大而不可行。函数逼近通过参数化价值函数,显著提升了强化学习算法的可扩展性。 5.2.1 线性函数逼近基础 在强化学习中,我们通常需要估计状态价值函数 $V(s)$ 或动作价值函数 $Q(s, a)$。当状态空间过大时,直接存储每个状态(或状态-动作对)的价值变得不现实。函数逼近通过一个参数化的函数来近似真实价值函数。 1.


发布者: 作者: 转发
评论区 (0)
U