第 5 章 免模型控制 $\qquad$ 回顾前面讲的控制,即给定一个马尔可夫决策过程,输出最优策略以及对应的最优价值函数。而免模型则是指不需要知道环境的状态转移概率的一类算法,实际上很多经典的强化学习算法都是免模型控制的。本章会重点介绍两种基础的免模型算法,$\text{Q-learning}$ 和 $\text{Sarsa}$ ,也都是基于时序差分的方法。 5.1 Q-learning 算法 $\qquad$ 在时序差分方法的章节中我们讲的是状态价值函数的时序差分,其目的是为了预测每个状态的价值。而在预测与控制的内容中我们提到了控制的方法是需要输出最优策略的同时,也会输出对应的状态价值函数,预测的方法也是为了帮助解决控制问题做一个铺垫。