第二章:强化学习基础框架:智能体与环境 第二章:强化学习基础框架:智能体与环境 强化学习 (Reinforcement Learning, RL) 的核心在于智能体 (Agent) 如何通过与环境 (Environment) 交互来学习最优行为策略。本章将深入探讨强化学习的基础框架,包括马尔可夫决策过程 (Markov Decision Process, MDP)、智能体与环境的组成要素,策略与价值函数,以及 Bellman 方程与最优性概念。理解这些基础概念是掌握强化学习算法的关键。 2.1 马尔可夫决策过程 (MDP) 马尔可夫决策过程 (MDP) 是强化学习问题建模的数学框架。它提供了一种形式化的方式来描述智能体与环境的交互过程,并为寻找最优策略提供了理论基础。