第6章深度Q网络-习题

文档摘要

第六章 DQN (基本概念) 关键词深度Q网络（deep Q-network，DQN）：基于深度学习的Q学习算法，其结合了价值函数近似（value function approximation）与神经网络技术，并采用目标网络和经验回放等方法进行网络的训练。状态-价值函数（state-value function）：其输入为演员某一时刻的状态，输出为一个标量，即当演员在对应的状态时，预期的到过程结束时间段内所能获得的价值。状态-价值函数贝尔曼方程（state-value function Bellman equation）：基于状态-价值函数的贝尔曼方程，它表示在状态 $st$ 下对累积奖励 $Gt$ 的期望。

第6章 深度Q网络-习题

文档摘要

第6章深度Q网络-习题