2.2 蒙特卡洛方法:原理、MC预测、MC控制 想象一下,你正在玩一个你从未玩过的棋盘游戏,规则复杂,每一步都可能导向不同的结局。你没有说明书,也无法预知未来。你会怎么做?最直观的方法可能就是——玩它! 玩上几百局,几千局,甚至几万局,每次都记录下你的决策和最终的胜负。渐渐地,你会发现某些决策组合似乎总是能带来胜利,而另一些则常常导致失败。这就是蒙特卡洛方法的核心思想:通过大量随机样本来估计未知量。 在强化学习中,蒙特卡洛方法正是利用了这种“通过实践学习”的哲学。它不需要知道环境的模型(Model-Free),也不需要像动态规划那样进行复杂的迭代计算。它只需要与环境进行交互,收集完整的“经验轨迹”(episodes),然后基于这些轨迹来更新我们的价值函数和策略。