3.4IA3介绍


文档摘要

comments: true title: IA3:探索新的增量训练方法 前言 为了使微调更加高效,北卡罗来纳教堂山分校的研究人员提出新的增量训练方法$IA^3$,这种方法通过学习向量来对激活层加权进行缩放。作者团队基于之前的 基础模型,修改了损失函数以适应小样本学习,无需针对特定任务进行调整即可应用于新任务,命名为 ,并在 基准测试上取得了全新的SOTA结果,超过了人类基准水平。 核心思想 IA3img $IA^3$ 的核心思想是在原始预训练语言模型的关键位置注入少量可训练参数,来实现参数的高效微调。 具体来说,$IA^3$ 引入了三个学习向量 $lk$ ,$lv$ 和 $l{ff}$ ,分别用于缩放注意力机制中的键(key)和值(value),以及前馈网络(FFN)中的中间激活。


发布者: 作者: 转发
评论区 (0)
U