5.2.2 权重压缩算法：GPTQ, AWQ 与混合精度

文档摘要

5.2.2 权重压缩算法：GPTQ, AWQ 与混合精度 5.2.2 权重压缩算法：GPTQ、AWQ 与混合精度——从数学原理到工业级部署的完整实现路径你有没有在深夜调试一个 7B 模型时，突然发现显存爆了？不是因为 batch size 太大，也不是因为序列太长——而是模型本身那 13.7GB 的 FP16 权重，像一块沉重的铁砧，死死压在你的 A10 显存上。你删掉，关掉，甚至把缓存策略改了三遍……可问题依旧：模型加载即失败，更别提推理。这不是个例。这是大模型落地最真实、最刺骨的“第一道墙”——权重体积与硬件资源之间的尖锐矛盾。