强化学习 网络结构:其中的r: reward、s: state 、a: action 马尔科夫决策过程包含五个元素: 强化学习算法 ... 深度强化学习 深度强化学习是深度学习和强化学习的结合 深度学习具有较强的感知能力,但是缺乏一定的决策能力 强化学习具有决策能力,但对感知问题却束手无策 深度强化学习(DeepReinforcementLearning,DRL)将深度学习的 感知能力和强化学习的决策能力相结合,可以直接根据输入的状态进行控制,是一种更接近人类思维方式的人工智能方法 深度强化学习目前侧重在强化学习上,解决的仍然是决策问题,只 不过是借助神经网络强大的表征能力去拟合Q表或直接拟合策略以 解决状态-动作空间过大或连续状态-动作空间问题 深度强化学习基本过程
网络结构:其中的r: reward、s: state 、a: action
马尔科夫决策过程包含五个元素:
...
深度强化学习是深度学习和强化学习的结合
这是一个较为典型的DRL算法
DQN融合了神经网络和Q learning的方法。
DQN把Q learning中的价值函数用深度神经网络近似。除此之外,DQN算法还做了经验回放(Experience Replay),即将系统探索环境得到的数据储存起来,然后随机采样样本更新深度神经网络的参数。这是一种离线学习法,它能学习当前经历着的,也能学习过去经历过的,甚至是学习别人的经历。随机采样这种做法打乱了经历之间的相关性,也使得神经网络更新更有效率
参考文献:Human-level control through deep reinforcement learning, nature 2015
双网络结构
Main DQN(主网络/当前值网络):通过其最大Q值选择Action,而这个被选定的Action的Q值则由target DQN生成
Target DQN(目标网络):辅助计算目标Q值,这样做的目的是避免让网络训练陷入目标Q值与预测Q值的反馈循环中