第 1 章 知识蒸馏原理详解 本章是全教程的理论核心。我们将从 Hinton 2015 的奠基论文出发,彻底搞懂:温度为什么能"软化"分布?什么是"暗知识"?为什么损失要乘 T²?KL 散度在蒸馏里到底度量了什么? 如果你只读一章,就读这一章。 1.1 从一个直觉说起:硬标签 vs 软标签 先看一个语言模型的经典场景:预测 "the cat" 的空格。 硬标签(Hard Label) 普通训练中,每个样本只有一个「正确答案」: 模型只被告知「lazy 是对的」,其他所有词都被同等视为「错」。这种信息量很稀薄——它不区分 "quick"(也合理)和 " Refrigerator"(完全无关)。