4.4 Q-Learning：Off-policy TD 控制

文档摘要

4.4 Q-Learning：Off-policy TD 控制 4.4 Q-Learning：Off-policy TD 控制 Q-Learning 是一种 Off-policy 的时序差分 (TD) 控制算法，是强化学习领域中最经典、最常用的算法之一。它通过学习一个最优的 Q 函数来指导智能体做出最优决策，而无需遵循当前的策略。这使得 Q-Learning 能够探索更广泛的状态空间，并更快地找到最优策略。 4.4. 会员。《4.4 Q-Learning：Off-policy TD 控制》收录于灏天文库文集《强化学习入门：探索智能体的决策之路》，提供技术教程、实践指南与问题解决方案，支持在线阅读、全文检索与知识沉淀，助力开发者系统化学习。文档编号21860。

该文档为会员专享，请先登录或注册后再查看

登录注册