第7章深度Q网络进阶技巧

文档摘要

第7章深度Q网络进阶技巧 7.1 双深度Q网络本章我们介绍训练深度Q网络的一些技巧。第一个技巧是双深度Q网络（double DQN，DDQN）。为什么要有DDQN呢？因为在实现上，Q 值往往是被高估的。如图 7.1 所示，这里有 4 个不同的小游戏，横轴代表迭代轮次，红色锯齿状的一直在变的线表示Q函数对不同的状态估计的平均 Q 值，有很多不同的状态，每个状态我们都进行采样，算出它们的 Q 值，然后进行平均。这条红色锯齿状的线在训练的过程中会改变，但它是不断上升的。因为Q函数是取决于策略的，在学习的过程中策略越来越强，我们得到的 Q 值会越来越大。在同一个状态，我们得到奖励的期望会越来越大，所以一般而言，Q值都是上升的，但这是深度Q网络预估出来的值。

第7章 深度Q网络进阶技巧

文档摘要

第7章深度Q网络进阶技巧