大模型知识蒸馏体系化教程（目录）

文档摘要

大模型知识蒸馏体系化教程从原理到代码，系统掌握用 HuggingFace Transformers 做大模型知识蒸馏（Knowledge Distillation）的完整流程：温度软化、软硬标签损失、师生分布对齐、训练加速、评估对比与推理部署。这套教程讲什么知识蒸馏是当前大模型时代最核心的模型压缩与加速技术之一：用一个能力强、体积大的「教师模型」来指导一个体积小、速度快的「学生模型」训练，让学生在参数量大幅缩减的同时，尽量逼近教师的性能。本教程围绕一个真实可运行的 GPT2 蒸馏项目展开——教师是预训练的标准 GPT2（约 1.24 亿参数），学生是从零初始化的小型 GPT2（约 1000 万参数，压缩比约 12:1）。