第12章使用Policy-Based方法实现Pendulum-v0

文档摘要

使用Policy-Based方法实现Pendulum-v0 使用Policy-Based方法比如DDPG等实现Pendulum-v0环境 Pendulum-v0 image-20200820174814084 钟摆以随机位置开始，目标是将其摆动，使其保持向上直立。动作空间是连续的，值的区间为[-2,2]。每个step给的reward最低为-16.27，最高为0。环境建立如下：强化学习基本接口任务要求训练并绘制reward以及滑动平均后的reward随episode的变化曲线图并记录超参数写成报告，图示如下： rewardstrain movingaveragerewardstrain stepstrain 同时也可以绘制测试(eval)模型时的曲线： rewardseval

第12章 使用Policy-Based方法实现Pendulum-v0

文档摘要

第12章使用Policy-Based方法实现Pendulum-v0