首页前言第一章绪论第二章马尔可夫决策过程第三章动态规划第四章免模型预测第五章免模型控制第六章深度学习基础第七章 DQN算法第八章 DQN算法进阶第九章策略梯度第十章 Actor-Critic 算法第十一章 DDPG 算法第十二章 PPO 算法第十三章 SAC 算法 JoyRL 中文文档基本概念使用说明参数说明通用参数说明算法参数说明附录

首页
前言
第一章绪论
第二章马尔可夫决策过程
第三章动态规划
第四章免模型预测
第五章免模型控制
第六章深度学习基础
第七章 DQN算法
第八章 DQN算法进阶
第九章策略梯度
第十章 Actor-Critic 算法
第十一章 DDPG 算法
第十二章 PPO 算法
第十三章 SAC 算法
JoyRL 中文文档
附录

目录

文档摘要