大模型知识蒸馏体系化教程 从原理到代码,系统掌握用 HuggingFace Transformers 做大模型知识蒸馏(Knowledge Distillation)的完整流程:温度软化、软硬标签损失、师生分布对齐、训练加速、评估对比与推理部署。 这套教程讲什么 知识蒸馏是当前大模型时代最核心的模型压缩与加速技术之一:用一个能力强、体积大的「教师模型」来指导一个体积小、速度快的「学生模型」训练,让学生在参数量大幅缩减的同时,尽量逼近教师的性能。 本教程围绕一个真实可运行的 GPT2 蒸馏项目展开——教师是预训练的标准 GPT2(约 1.24 亿参数),学生是从零初始化的小型 GPT2(约 1000 万参数,压缩比约 12:1)。