4.4 Q-Learning:Off-policy TD 控制 4.4 Q-Learning:Off-policy TD 控制 Q-Learning 是一种 Off-policy 的时序差分 (TD) 控制算法,是强化学习领域中最经典、最常用的算法之一。它通过学习一个最优的 Q 函数来指导智能体做出最优决策,而无需遵循当前的策略。这使得 Q-Learning 能够探索更广泛的状态空间,并更快地找到最优策略。 4.4.1 核心思想 Q-Learning 的核心思想是直接学习最优 Q 函数 ,表示在状态 下采取动作 后,遵循最优策略所能获得的期望累积回报。