5.1 为什么需要函数近似


文档摘要

5.1 为什么需要函数近似 5.1 为什么需要函数近似 在强化学习中,我们训练智能体(Agent)与环境交互,学习一个策略,使其在长期内获得最大的累积奖励。 在状态空间较小的情况下,我们可以使用表格型方法,例如Q-learning或SARSA,直接为每个状态(或状态-动作对)存储其价值(或Q值)。 然而,当状态空间变得非常大甚至连续时,表格型方法将不再适用。 本节将详细探讨为什么需要函数近似,以及表格型方法在大规模状态空间中遇到的问题。 5.1.1 表格型方法的局限性 表格型方法,如Q-learning和SARSA,依赖于为每个状态(或状态-动作对)维护一个独立的价值估计。 这种方法在状态空间较小的情况下非常有效,因为它能够精确地学习每个状态的价值。


发布者: 作者: 转发
评论区 (0)
U