第 0 章 项目导览与学习路线 在动任何代码之前,先建立全局心智模型。本章回答三个问题:这是什么?为什么学它?怎么学? 0.1 知识蒸馏解决什么问题 大模型(LLM)能力强大,但代价昂贵:参数动辄数十亿至上千亿,推理时占用大量显存与算力,难以部署到手机、边缘设备等资源受限的环境。 知识蒸馏(Knowledge Distillation) 正是为这个问题而生。它的核心思想可以用一句话概括: 让一个「小而快」的学生模型,去模仿一个「大而强」的教师模型的输出行为,从而在参数量大幅缩减的同时,尽可能保住教师的能力。 用一个生活化的比喻:教师是经验丰富的老教授,学生是年轻助教。学生不必从零摸索(只啃课本/硬标签),而是通过观察老教授如何判断问题、如何给出选项的概率(软标签),更快地积累「直觉」。