4.3 SARSA：On-policy TD 控制

文档摘要

4.3 SARSA：On-policy TD 控制 4.3 SARSA：On-policy TD 控制 4.3.1 概述 SARSA (State-Action-Reward-State-Action) 是一种 on-policy 的时序差分 (TD) 控制算法，用于学习最优策略。 "On-policy" 的含义是：SARSA 使用正在执行的策略来评估和改进自身。会员。《4.3 SARSA：On-policy TD 控制》收录于灏天文库文集《强化学习入门：探索智能体的决策之路》，提供技术教程、实践指南与问题解决方案，支持在线阅读、全文检索与知识沉淀，助力开发者系统化学习。文档编号21859。

该文档为会员专享，请先登录或注册后再查看

登录注册