第 5 章 训练循环 · 上:流程总览与完整源码 本章最重,故拆成上下两篇。上篇给出训练 8 阶段全景与完整源码,下篇逐行讲解重难点。一个工业级训练循环涉及配置、设备、优化器、调度器、梯度裁剪、断点续训、日志、checkpoint——全部串起来。 5.1 训练流程全景 训练主函数 的 8 个阶段: 下面给出完整源码。把它与第 2 章的配置、第 3 章的数据、第 4 章的模型对照着读,你会发现整个文件就是把那三章的能力串成一个循环。 5.2 工具函数 5.2.1 可复现性:setseed 固定四个随机源。为什么是四个?