第 4 章 模型构建 本章目标:理解如何用 HuggingFace 搭一个自定义规模的小 GPT,以及如何加载/保存权重。 4.1 设计哲学:不重复造轮子 本项目刻意不手写 Transformer,而是基于 HuggingFace Transformers 提供的先进小型 GPT( )实现。GPT2 的实现经过工业级验证,稳定且高效。 工程取舍 方案 | 优点 | 缺点 手写 Transformer | 教学 value 拉满,每行都能讲 | 容易写错(掩码、维度、初始化),性能不如框架优化 用 HF GPT2 | 工业级稳定、自动用上 FlashAttention 等 | 看不到内部细节 本项目选择后者,把精力集中在「工程流水线」上。想学手写 Attention,看第 9 章进阶方向。