4.3 SARSA:On-policy TD 控制


文档摘要

4.3 SARSA:On-policy TD 控制 4.3 SARSA:On-policy TD 控制 4.3.1 概述 SARSA (State-Action-Reward-State-Action) 是一种 on-policy 的时序差分 (TD) 控制算法,用于学习最优策略。 "On-policy" 的含义是:SARSA 使用 正在执行的策略 来评估和改进自身。 换句话说,它一边探索环境,一边根据当前策略学习价值函数,并利用该价值函数来改进当前策略。 与蒙特卡洛方法不同,SARSA 利用 TD learning 的特性,可以在每个时间步更新价值函数,无需等待episode结束。这使得SARSA能够更快地学习,尤其是在 episodic 任务非常长或者有持续性任务时。 4.3.


发布者: 作者: 转发
评论区 (0)
U