3.2.3.2 极低比特量化(IQ1S, IQ2XXS)的突破 突破1比特极限:解码IQ1S的分裂机制与校准艺术 在深度学习推理的边缘端战场,内存带宽往往是比算力更坚硬的瓶颈。当我们试图将一个参数量高达70B的巨兽塞进仅有24GB显存的消费级显卡,甚至是在移动端设备的内存中运行时,传统的FP16甚至INT4量化都显得过于奢侈。这不仅是存储空间的博弈,更是内存墙的生死决斗。此时,极低比特量化,特别是1比特和2比特量化,成为了打破僵局的唯一“魔法”。 然而,极低比特量化并非简单的“截断”。早期的二值网络虽然能将模型压缩几十倍,但往往伴随着精度的断崖式下跌,生成的文本充斥着毫无逻辑的乱码。