第四章：无模型学习：蒙特卡洛与时序差分

文档摘要

第四章：无模型学习：蒙特卡洛与时序差分第四章：无模型学习：蒙特卡洛与时序差分在之前的章节中，我们假设智能体对环境有完整的了解，即环境的模型是已知的。然而，在现实世界中，这种情况往往是不存在的。我们无法事先知道环境的转移概率和奖励函数。因此，我们需要学习在没有环境模型的情况下进行决策。本章将介绍两种主要的无模型学习方法：蒙特卡洛（Monte Carlo, MC）方法和时序差分（Temporal Difference, TD）学习。会员。《第四章：无模型学习：蒙特卡洛与时序差分》收录于灏天文库文集《强化学习入门：探索智能体的决策之路》，提供技术教程、实践指南与问题解决方案，支持在线阅读、全文检索与知识沉淀，助力开发者系统化学习。文档编号21856。

该文档为会员专享，请先登录或注册后再查看

登录注册