4.3 Actor-Critic 方法:A2C (Advantage Actor-Criti...


文档摘要

4.3 Actor-Critic 方法:A2C (Advantage Actor-Critic), A3C (Asynchronous Advantage Actor-Critic), SAC (Soft Actor-Critic) 各位强化学习的探索者们,欢迎来到我们深度强化学习的奇妙世界! 在前面的旅程中,我们一同领略了Q-Learning的魅力,感受了深度Q网络(DQN)的强大,它们让我们看到了价值函数在决策中的核心作用。然而,细心的你或许已经发现,这些基于价值的方法在面对连续动作空间时,似乎有些力不从心。想象一下,一个机器人手臂需要以无限精细的角度和力度去抓取物品,我们还能穷举所有的Q值吗?显然,这变得不切实际。


发布者: 作者: 转发
评论区 (0)
U