5.3.1.1 模型量化与裁剪 5.3.1.1 模型量化与裁剪:当INT8推理在TensorRT中突然“失重”——一个关于校准张量动态范围漂移的硬核排障实录 凌晨两点十七分,GPU监控面板上那根代表 推理延迟的红色曲线,又一次毫无征兆地跳变到127ms——比基线高了整整3.8倍。日志里没有报错,CUDA流没卡死,显存占用稳定在62%,模型结构图和ONNX导出都通过了 验证。可用户端的请求超时告警,正以每分钟47条的速度涌进SRE看板。 这不是第一次。过去三周,我们为某款边缘端OCR模型落地TensorRT INT8推理,已反复推倒重建了五次量化流程。每次都在“校准(calibration)→ 构建引擎 → 部署验证”闭环中,在最后一步崩塌。准确率掉点不到0.