4.3 强化学习（RL）：决策与控制

文档摘要

4.3 强化学习（RL）：决策与控制 4.3 强化学习（RL）：决策与控制强化学习（Reinforcement Learning, RL）是人工智能领域一个独特而强大的分支，它专注于智能体（Agent）如何在与环境（Environment）的交互中学习最优策略，以实现长期目标的最大化。与监督学习（需要大量带标签数据）和无监督学习（发现数据中的隐藏结构）不同，强化学习通过“试错”的方式进行学习，其核心在于决策与控制。 4.3.1 强化学习的核心概念强化学习的框架包含以下几个关键组成部分：智能体（Agent）：执行动作（Action）并与环境交互的学习者。环境（Environment）：智能体所处的外部世界，接收智能体的动作并返回新的状态（State）和奖励（Reward）。