4.4 Q-Learning:Off-policy TD 控制 4.4 Q-Learning:Off-policy TD 控制 Q-Learning 是一种 Off-policy 的时序差分 (TD) 控制算法,是强化学习领域中最经典、最常用的算法之一。它通过学习一个最优的 Q 函数来指导智能体做出最优决策,而无需遵循当前的策略。这使得 Q-Learning 能够探索更广泛的状态空间,并更快地找到最优策略。 4.4. 会员。《4.4 Q-Learning:Off-policy TD 控制》收录于灏天文库文集《强化学习入门:探索智能体的决策之路》,提供技术教程、实践指南与问题解决方案,支持在线阅读、全文检索与知识沉淀,助力开发者系统化学习。文档编号21860。