第 1 章知识蒸馏原理详解

文档摘要

第 1 章知识蒸馏原理详解本章是全教程的理论核心。我们将从 Hinton 2015 的奠基论文出发，彻底搞懂：温度为什么能"软化"分布？什么是"暗知识"？为什么损失要乘 T²？KL 散度在蒸馏里到底度量了什么？如果你只读一章，就读这一章。 1.1 从一个直觉说起：硬标签 vs 软标签先看一个语言模型的经典场景：预测 "the cat" 的空格。硬标签（Hard Label）普通训练中，每个样本只有一个「正确答案」：模型只被告知「lazy 是对的」，其他所有词都被同等视为「错」。这种信息量很稀薄——它不区分 "quick"（也合理）和 " Refrigerator"（完全无关）。

第 1 章 知识蒸馏原理详解

文档摘要

第 1 章知识蒸馏原理详解