3.2.3.1 结合 I-Matrix（重要性矩阵）的量化优化

文档摘要

3.2.3.1 结合 I-Matrix（重要性矩阵）的量化优化拒绝“一刀切”：基于 I-Matrix 的混合精度量化实战录在模型压缩的征途上，每一位工程师迟早会撞上那堵名为“精度墙”的障碍。当你试图将一个 70B 参数的巨兽塞进消费级显卡的显存时，或是试图在边缘端设备上跑通原本臃肿的推理服务时，最直观的方案往往是粗暴地降低权重位宽——从 FP16 拉到 INT8，甚至激进地砍到 INT4 或 INT3。这种“一刀切”的量化策略虽然简单粗暴，却也极易引发模型的“智力退化”：逻辑链条断裂、代码生成能力丧失，甚至出现满篇的胡言乱语。我们曾在一个 Llama-2-70B 的量化项目中遭遇过典型的滑铁卢。为了追求极致的显存占用，我们尝试了全 INT4 的 GPTQ 量化方案。