3.1.1 权重与激活值的位宽压缩(从 FP16 到 INT4/INT8) 3.1.1 权重与激活值的位宽压缩(从 FP16 到 INT4/INT8) 在深度学习模型的推理部署阶段,算力与内存带宽往往成为制约性能的瓶颈。当我们谈论模型加速时,本质上是在寻求一种在精度损失可控的前提下,最大程度榨干硬件性能的平衡艺术。FP16(半精度浮点数)曾是训练与推理的黄金标准,它兼顾了动态范围与精度,但在边缘计算设备或高并发云服务场景下,它依然显得过于“奢侈”。将模型参数从 FP16 压缩至 INT8 甚至 INT4,不仅仅是一个简单的数据类型转换过程,更是一场涉及数值分布、硬件指令集与计算图优化的精密手术。