大模型微调之Adapters(二)LoRA


文档摘要

大模型微调之Adapters(二)LoRA LoRA(Low-Rank Adapter)1 是最流行的 PEFT 方法之一,如果你刚开始使用 PEFT,它是一个很好的起点。它最初是为大型语言模型开发的,但由于其效率和有效性,它是一种非常流行的扩散模型训练方法。 1.技术解读 0 在大型语言模型中,权重矩阵通常具有较大的维度,这使得在微调时需要处理大量的参数。LoRA方法通过将这些大的权重矩阵分解为两个较小的矩阵的乘积(即低秩分解),来近似表示原始的权重矩阵。这样做的好处是,我们只需要更新这两个较小矩阵的参数,而不是原始大矩阵的所有参数,大大减少了微调的计算成本。 LoRA的实施过程大致如下: 选择模型中需要微调的层(如Transformer模型中的自注意力层);


发布者: 作者: 转发
评论区 (0)
U