第7章使用DQN实现CartPole-v0

文档摘要

使用DQN实现CartPole-v0 推荐使用Double-DQN去解决，即建立两个初始参数相同的全连接网络targetnet和policynet。 CartPole-v0 CartPole-v0是OpenAI gym中的一个经典环境，通过向左(action=0)或向右(action=1)推车能够实现平衡，所以动作空间由两个动作组成。每进行一个step就会给一个+1的reward，如果无法保持平衡那么done等于true，本次episode失败。理想状态下，每个episode至少能进行200个step，也就是说每个episode的reward总和至少为200，step数目至少为200。

第7章 使用DQN实现CartPole-v0

文档摘要

第7章使用DQN实现CartPole-v0