第7章深度Q网络进阶技巧-习题

文档摘要

第七章 DQN (进阶技巧) 关键词双深度Q网络（double DQN）：在双深度Q网络中存在两个Q网络，第一个Q网络决定哪一个动作的Q值最大，从而决定对应的动作。另一方面，Q值是用 $Q'$ 计算得到的，这样就可以避免过度估计的问题。具体地，假设我们有两个Q函数并且第一个Q函数高估了它现在执行的动作 $a$ 的值，这没关系，只要第二个Q函数 $Q'$ 没有高估动作 $a$ 的值，那么计算得到的就还是正常的值。竞争深度Q网络（dueling DQN）：将原来的深度Q网络的计算过程分为两步。第一步计算一个与输入有关的标量 $\mathrm{V(s)}$；第二步计算一个向量 $\mathrm{A(s,a)}$ 对应每一个动作。最后的网络将两步的结果相加，得到我们最终需要的Q值。

第7章 深度Q网络进阶技巧-习题

文档摘要

第7章深度Q网络进阶技巧-习题