第12章 深度确定性策略梯度


文档摘要

第12章 深度确定性策略梯度 12.1 离散动作与连续动作的区别 离散动作与连续动作是相对的概念,一个是可数的,一个是不可数的。 如图 12.1 所示,离散动作和连续动作有几个例子。在 CartPole 环境中,可以有向左推小车、向右推小车两个动作。在 Frozen Lake 环境中,小乌龟可以有上、下、左、右4个动作。在雅达利的 Pong 游戏中,游戏有 6 个按键的动作可以输出。但在实际情况中,我们经常会遇到连续动作空间的情况,也就是输出的动作是不可数的。比如:推小车推力的大小、选择下一时刻方向盘转动的具体角度、给四轴飞行器的4个螺旋桨给的电压的大小。 图 12.1 离散动作和连续动作的区别 对于这些连续的动作,Q学习、深度Q网络等算法是没有办法处理的。那我们怎么输出连续的动作呢?


发布者: 作者: 转发
评论区 (0)
U