5.1.2 多任务强化学习与元学习 (Meta-Learning)


文档摘要

5.1.2 多任务强化学习与元学习 (Meta-Learning) 5.1.2 多任务强化学习与元学习(Meta-Learning):当你的MAML在稀疏奖励下突然“失忆”——一个被忽略的梯度坍缩陷阱与可复用的梯度重加权方案 你有没有试过这样的情形? 在多任务RL场景中,你精心设计了16个风格迥异但语义相关的导航任务:从迷宫逃逸、仓库拣货、无人机避障,到机械臂抓取不同形状的物体。你满怀信心地跑通了MAML(Model-Agnostic Meta-Learning)流程——外层元更新用Adam,内层适应步长设为0.1,每任务采样5条轨迹,共200轮元训练。


发布者: 作者: 转发
评论区 (0)
U