4.1 蒙特卡洛(Monte Carlo, MC)方法


文档摘要

4.1 蒙特卡洛(Monte Carlo, MC)方法 4.1 蒙特卡洛(Monte Carlo, MC)方法 在强化学习中,当我们对环境的完整模型(即状态转移概率和奖励函数)一无所知时,我们就需要采用无模型学习方法。蒙特卡洛方法是无模型学习中最基础且重要的技术之一。它通过从经验中学习,直接从完整的episode中进行学习,而不需要任何关于环境动态的信息。 4.1.1 蒙特卡洛方法的核心思想 蒙特卡洛方法的核心思想是通过多次模拟(或采样)来估计期望值。在强化学习中,我们想要估计状态值函数 和动作值函数 。MC 方法通过完整episode的经验平均回报来估计这些值函数。 关键概念: Episode (回合): 从起始状态到终止状态的完整状态、动作和奖励序列。


发布者: 作者: 转发
评论区 (0)
U