第6章 深度Q网络


文档摘要

第6章 深度Q网络 传统的强化学习算法会使用表格的形式存储状态价值函数 $V(s)$ 或动作价值函数 $Q(s,a)$,但是这样的方法存在很大的局限性。例如,现实中的强化学习任务所面临的状态空间往往是连续的,存在无穷多个状态,在这种情况下,就不能再使用表格对价值函数进行存储。价值函数近似利用函数直接拟合状态价值函数或动作价值函数,降低了对存储空间的要求,有效地解决了这个问题。 为了在连续的状态和动作空间中计算值函数 $Q{\pi}(s,a)$,我们可以用一个函数 $Q{\phi}(\boldsymbol{s},\boldsymbol{a})$ 来表示近似计算,称为价值函数近似(value function approximation)。


发布者: 作者: 转发
评论区 (0)
U