大模型微调之Adapters(三)QLoRA 1.技术解读 0 QLoRA(Quantized Low-Rank Adaptation)是一种针对大型预训练语言模型(LLM)的高效微调技术。它结合了量化和低秩适配(LoRA)两种技术,旨在减少模型微调过程中的内存占用和计算成本,同时尽量保持模型性能。 在QLoRA中,首先对模型的权重进行4位量化,这意味着模型的每个权重被表示为4位的数值,显著减少了模型的内存占用。量化后的模型参数以一种称为NormalFloat(NF4)的数据类型存储,这种数据类型特别适合表示正态分布的数据,并且可以比传统的4位整数或浮点数提供更好的量化效果。 接下来,QLoRA利用LoRA技术,通过在模型中引入可训练的低秩矩阵来进一步微调模型。