第 0 章项目导览与学习路线

文档摘要

第 0 章项目导览与学习路线在动任何代码之前，先建立全局心智模型。本章回答三个问题：这是什么？为什么学它？怎么学？ 0.1 知识蒸馏解决什么问题大模型（LLM）能力强大，但代价昂贵：参数动辄数十亿至上千亿，推理时占用大量显存与算力，难以部署到手机、边缘设备等资源受限的环境。知识蒸馏（Knowledge Distillation）正是为这个问题而生。它的核心思想可以用一句话概括：让一个「小而快」的学生模型，去模仿一个「大而强」的教师模型的输出行为，从而在参数量大幅缩减的同时，尽可能保住教师的能力。用一个生活化的比喻：教师是经验丰富的老教授，学生是年轻助教。学生不必从零摸索（只啃课本/硬标签），而是通过观察老教授如何判断问题、如何给出选项的概率（软标签），更快地积累「直觉」。

第 0 章 项目导览与学习路线

文档摘要

第 0 章项目导览与学习路线