1.2.3 压缩与优化:NNCF (Neural Network Compression Framework) 在深度学习工业落地的战场上,模型精度曾是唯一的勋章;而今,当GPU显存告急、端侧推理延迟飙升、服务吞吐卡在200 QPS、边缘设备发热到烫手——我们终于听懂了模型在沉默中发出的求救信号:它太“胖”了。这不是一句轻飘飘的比喻。ResNet-50在ImageNet上参数量达25.6M,浮点计算量(FLOPs)超4.1G;而一个经NNCF量化后的INT8版本,在保持Top-1精度仅下降0.