2.3 策略(Policy)与价值函数(Value Function)


文档摘要

2.3 策略(Policy)与价值函数(Value Function) 2.3 策略(Policy)与价值函数(Value Function) 在强化学习中,智能体的目标是找到一个最优策略,使其在与环境交互的过程中获得最大的累积奖励。策略和价值函数是描述和评估智能体行为的关键概念,它们相互关联,共同指导智能体的学习过程。 2.3.1 策略(Policy) 策略定义了智能体在特定状态下应该采取的行动。它本质上是一个从状态到行动的映射。策略可以是确定性的,也可以是随机的。 确定性策略(Deterministic Policy): 对于给定的状态,确定性策略总是选择相同的行动。我们可以用函数 π(s) 来表示确定性策略,其中 s 是状态,π(s) 是智能体在状态 s 下将要采取的行动。


发布者: 作者: 转发
评论区 (0)
U