第6章深度Q网络

文档摘要

第6章深度Q网络传统的强化学习算法会使用表格的形式存储状态价值函数 $V(s)$ 或动作价值函数 $Q(s,a)$，但是这样的方法存在很大的局限性。例如，现实中的强化学习任务所面临的状态空间往往是连续的，存在无穷多个状态，在这种情况下，就不能再使用表格对价值函数进行存储。价值函数近似利用函数直接拟合状态价值函数或动作价值函数，降低了对存储空间的要求，有效地解决了这个问题。为了在连续的状态和动作空间中计算值函数 $Q{\pi}(s,a)$，我们可以用一个函数 $Q{\phi}(\boldsymbol{s},\boldsymbol{a})$ 来表示近似计算，称为价值函数近似（value function approximation）。

第6章 深度Q网络

文档摘要

第6章深度Q网络