5.4.2 向量专用压缩(Scalar Quantization) 在向量检索系统中,我们常被一个看似朴素却异常顽固的问题所困扰:一个维度为768的FP32浮点向量,单条就占3.072KB;当索引规模跃升至千万级,仅原始向量存储便轻易突破30GB——这还尚未计入索引结构、元数据与缓存开销。更严峻的是,GPU显存带宽正成为吞吐瓶颈:A100的HBM2带宽虽达2TB/s,但若每次相似度计算需从显存加载数千字节的高精度向量,实际有效计算吞吐将被内存墙死死压低至不足峰值的15%。此时,“压缩”早已不是锦上添花的优化选项,而是支撑大规模向量服务落地的基础设施级刚需。