5.3 神经网络作为函数近似器(深度强化学习初步) 5.3 神经网络作为函数近似器(深度强化学习初步) 5.3.1 引言:为什么需要神经网络? 在强化学习中,智能体的目标是学习一个策略,使其在给定的环境中获得最大的累积奖励。 在状态空间较小的情况下,我们可以使用表格型方法(例如 Q-table)来存储每个状态-动作对的价值,并使用诸如 Q-learning 或 SARSA 等算法来更新这些价值。 然而,当状态空间变得非常大,甚至是连续的时候,表格型方法就变得不再可行。 这主要是因为: 存储空间需求巨大: 存储每个状态-动作对的价值需要大量的内存。 泛化能力差: 只能学习到已经访问过的状态-动作对的价值,无法泛化到未见过的状态。