大模型微调之Adapters（三）QLoRA

文档摘要

大模型微调之Adapters（三）QLoRA 1.技术解读 0 QLoRA（Quantized Low-Rank Adaptation）是一种针对大型预训练语言模型（LLM）的高效微调技术。它结合了量化和低秩适配（LoRA）两种技术，旨在减少模型微调过程中的内存占用和计算成本，同时尽量保持模型性能。在QLoRA中，首先对模型的权重进行4位量化，这意味着模型的每个权重被表示为4位的数值，显著减少了模型的内存占用。量化后的模型参数以一种称为NormalFloat（NF4）的数据类型存储，这种数据类型特别适合表示正态分布的数据，并且可以比传统的4位整数或浮点数提供更好的量化效果。接下来，QLoRA利用LoRA技术，通过在模型中引入可训练的低秩矩阵来进一步微调模型。