第五章:处理大规模状态空间:函数近似


文档摘要

第五章:处理大规模状态空间:函数近似 第五章:处理大规模状态空间:函数近似 在前面的章节中,我们学习了强化学习的基本概念和算法,例如动态规划、蒙特卡洛方法和时序差分学习。这些方法在状态空间较小的情况下表现良好。然而,当状态空间变得非常大甚至连续时,这些方法会面临“维度灾难”,导致学习效率低下甚至无法收敛。本章将介绍函数近似方法,用于处理大规模状态空间,使强化学习能够应用于更复杂的问题。 5.1 为什么需要函数近似 5.1.1 维度灾难 考虑一个简单的例子:一个机器人学习在一个房间里导航。如果我们将房间离散化为 10x10 的网格,那么状态空间只有 100 个状态。然而,如果我们将房间离散化为 100x100 的网格,那么状态空间将增加到 10000 个状态。


发布者: 作者: 转发
评论区 (0)
U