连续山地车 OpenAI Gym 的设计方式是所有环境都提供相同的 API - 即相同的方法 、 和 ,以及相同的抽象动作空间和观察空间。因此,应该可以通过最少的代码更改使相同的强化学习算法适应不同的环境。 山地车环境 山地车环境 包含一辆卡在山谷中的汽车: 目标是通过在每一步执行以下任一操作来走出山谷并得到旗帜: 值 | 含义 0 | 向左加速 1 | 不加速 2 | 向右加速 然而,这个问题的主要技巧是,汽车的引擎不够强大,无法一次性翻越这座山。因此,成功的唯一方法是来回驱动以积聚动力。 观察空间仅包含两个值: 数量 | 观察 | 最小 | 最大 0 | 车位置 | -1.2| 0.6 1 | 车速度 | -0.07 | 0.