1.2:经典的量化方法(How-part1:PTQ) 第二章讲经典的PTQ量化LLM.int8,SQ,GPTQ(涵盖weight-only 和 weight-act)-方式:原理讲解+代码, 1.2.1 PTQ量化LLM.int8方式 PTQ(Post-Training Quantization)是一种在模型训练后进行的量化方法,通过这种方法可以在不重新训练模型的情况下,将模型的权重和激活值从浮点表示(如FP32)转换为低精度表示(如INT8),从而减少模型的存储大小和计算需求,提高推理性能。 1)INT8原理讲解 PTQ量化的核心思想是将浮点数通过缩放因子(scale)映射到整数范围内,从而减少存储和计算开销。在INT8量化中,通常将浮点数映射到[-128, 127]范围内的8位整数。