4.1.1 训练后量化(PTQ) 在模型部署的战场上,精度是盾,延迟是矛,而内存带宽则是决定胜负的补给线。当一个在A100上跑得风生水起的ViT-L/16模型,被要求塞进边缘端一颗仅4MB片上缓存、峰值算力不足2TOPS的MCU芯片时,我们面对的不是简单的“剪枝”或“蒸馏”问题——那是对计算范式的重新谈判。训练后量化(Post-Training Quantization, PTQ)正是这场谈判中最具实操价值的“停火协议”:它不触碰原始训练逻辑,不依赖梯度回传,却能在毫秒级时间内,将FP32权重压缩至1/4体积、激活数据吞吐降低至1/4带宽占用,同时——关键在于——把精度损失控制在可接受的业务阈值之内。这不是魔法,而是一套精密的数值映射工程;