默认的参数配置在 中,具体如下: 说明: :环境名称,目前只支持 环境,后续会支持自定义环境。 :算法名称,如 、 等, 详见算法参数说明。 :模式, 或 。 :设备, 或 。 :随机种子, 当为 时,则不设置随机种子。 :最大训练回合数,当为 时,则不限制训练轮数。 :每回合最大步数,当为 时,则不限制每回合最大步数,直到环境返回 或者 ,请根据实际环境情况设置。 :是否收集轨迹,当为 时,则收集轨迹,否则不收集轨迹,一般用于模仿学习、逆强化学习等。 :交互器数量,默认为 ,请根据实际情况设置。 :学习器数量,默认为 ,请根据实际情况设置。 :是否在线测试,当为 时,则在线测试,否则不在线测试。