2.1 马尔可夫决策过程(MDP)


文档摘要

2.1 马尔可夫决策过程(MDP) 2.1 马尔可夫决策过程(MDP) 马尔可夫决策过程(Markov Decision Process,MDP)是强化学习(Reinforcement Learning,RL)的核心数学框架,它提供了一个形式化描述智能体(Agent)在环境中进行决策,并获得奖励(Reward)的学习过程。理解 MDP 对于深入学习强化学习至关重要。 2.1.1 MDP 的定义 MDP 可以用一个五元组表示:(S, A, P, R, γ),其中: S:状态集合(State Set):表示环境所有可能的状态的集合。状态是智能体对环境的感知,它包含了做出决策所需的所有信息。 A:动作集合(Action Set):表示智能体可以采取的所有动作的集合。动作会改变环境的状态。


发布者: 作者: 转发
评论区 (0)
U