第12章 使用Policy-Based方法实现Pendulum-v0


文档摘要

使用Policy-Based方法实现Pendulum-v0 使用Policy-Based方法比如DDPG等实现Pendulum-v0环境 Pendulum-v0 image-20200820174814084 钟摆以随机位置开始,目标是将其摆动,使其保持向上直立。动作空间是连续的,值的区间为[-2,2]。每个step给的reward最低为-16.27,最高为0。 环境建立如下: 强化学习基本接口 任务要求 训练并绘制reward以及滑动平均后的reward随episode的变化曲线图并记录超参数写成报告,图示如下: rewardstrain movingaveragerewardstrain stepstrain 同时也可以绘制测试(eval)模型时的曲线: rewardseval


发布者: 作者: 转发
评论区 (0)
U