1.3：经典的量化方法（How-part2QAT）

文档摘要

1.3：经典的量化方法（How-part2:QAT）第三章讲经典QAT的LLM-QAT，OQ（涵盖weight-only 和 weight-act）-方式：原理讲解+代码， 1.3.1 LLM-QAT 1）原理讲解 LLM-QAT（Large Language Model Quantization-Aware Training）是一种针对大型语言模型的量化感知训练方法。在LLM-QAT中，模型在训练过程中就考虑到了量化操作，从而可以减小量化后的模型性能损失。 LLM-QAT的基本思想是使用预训练模型自己生成的数据进行知识蒸馏，并在量化权重和激活的同时，对KV cache进行量化。以下是LLM-QAT的详细步骤：数据生成：使用预训练模型生成数据。