目录


文档摘要

首页 前言 第一章 绪论 第二章 马尔可夫决策过程 第三章 动态规划 第四章 免模型预测 第五章 免模型控制 第六章 深度学习基础 第七章 DQN算法 第八章 DQN算法进阶 第九章 策略梯度 第十章 Actor-Critic 算法 第十一章 DDPG 算法 第十二章 PPO 算法 第十三章 SAC 算法 JoyRL 中文文档 基本概念 使用说明 参数说明 通用参数说明 算法参数说明 附录


发布者: 作者: 转发
评论区 (0)
U