第 4 章 免模型预测 $\qquad$ 本章开始介绍常见的两种免模型预测方法,蒙特卡洛方法( $\text{Monte Carlo,MC}$ )和时序差分方法($\text{temporal-difference,TD}$)。在讲解这两个方法之前,我们需要铺垫一些重要的概念,有模型($\text{model based}$)与免模型($\text{model free}$),预测($\text{predicton}$)与控制($\text{control}$)。 4.1 有模型与免模型 $\qquad$ 在前面的章节中,我们其实默认了一个事实,即状态转移概率是已知的,这种情况下使用的算法称之为有模型算法,例如动态规划算法。