第 2 章 环境准备与首次运行 理论有了,这一章我们把环境搭好,并在五分钟内跑通第一次蒸馏训练。跑起来,是建立信心的第一步。 2.1 硬件要求 配置 | 是否可行 | 说明 有 CUDA 的 GPU(≥ 6GB 显存) | ✅ 推荐 | 默认配置可流畅训练,约几分钟一个 epoch 仅 CPU | ✅ 可行 | 训练较慢,建议用极小配置冒烟 无网络 | ⚠️ 受限 | 教师模型需首次下载,需提前联网缓存 教师是预训练标准 GPT2(约 124M 参数,权重文件约 548MB),学生默认约 10M 参数。两者同时驻留显存,对入门级 GPU 也算友好。 2.2 软件依赖 依赖 | 最低版本 | 用途 Python | 3.