2.4 基于TD控制算法:SARSA (On-policy)、Q-Learning (Off...


文档摘要

2.4 基于TD控制算法:SARSA (On-policy)、Q-Learning (Off-policy) 欢迎来到我们强化学习的奇妙世界。今天,我们将深入探讨强化学习领域中两位举足轻重的“明星”——SARSA和Q-Learning。它们是基于时序差分(TD)控制算法的杰出代表,也是我们从传统强化学习迈向深度强化学习的必经之路。 想象一下,你正在玩一个寻宝游戏,你不知道地图,也不知道宝藏在哪里,你只能通过不断尝试、不断学习来找到它。强化学习就是这样一种学习范式,它通过让智能体与环境交互,根据环境的反馈(奖励或惩罚)来学习如何做出最优决策。 在强化学习中,我们通常会遇到两种类型的问题:预测和控制。预测是评估给定策略的有效性,而控制则是寻找最优策略。


发布者: 作者: 转发
评论区 (0)
U