1.1 什么是强化学习 1.1 什么是强化学习 强化学习(Reinforcement Learning, RL)是一种机器学习范式,其核心思想是让智能体(Agent)通过与环境(Environment)交互来学习最优策略,以最大化累积奖励(Cumulative Reward)。 与监督学习和无监督学习不同,强化学习没有明确的标签数据指导,而是通过试错(Trial and Error)的方式,从环境中获得的奖励或惩罚信号来调整自身的行为。 1.1.1 强化学习的核心概念 为了更好地理解强化学习,我们需要了解几个关键概念: 智能体(Agent): 做出决策的主体,例如一个机器人、一个游戏AI、或者一个推荐系统。智能体观察环境的状态,并根据策略选择一个动作执行。