1.2 马尔可夫决策过程 (MDP):定义、回报、贝尔曼方程、最优策略与价值函数 强化学习与智能体训练:从 Q-Learning 到深度强化学习 强化学习基础领域 1.2 马尔可夫决策过程 (MDP):定义、回报、贝尔曼方程、最优策略与价值函数 亲爱的读者朋友们,欢迎来到强化学习的奇妙世界!在上一章中,我们对强化学习有了一个初步的认识,知道它是一种通过“试错”来学习最优行为的机器学习范式。那么,智能体是如何进行“试错”的呢?它又是如何理解环境、做出决策并最终达成目标的呢?这一切的奥秘,都隐藏在一个至关重要的数学框架之中——马尔可夫决策过程 (Markov Decision Process, MDP)。