第 4 章 数据处理流水线 模型吃的是张量,不是文本。本章讲解原始文本如何经过「下载 → 分词 → 切窗」变成训练样本,以及本项目的两个特色:样本索引返回 与 训练/验证集切分。 4.1 数据流水线总览 整条流水线的目标:把人类可读的文本,变成形状为 的整数张量,供模型训练。 4.2 数据来源与三级回退策略 本项目使用 Karpathy 的经典 tinyshakespeare 数据集(约 1MB 的莎士比亚文本),它小到单机几分钟就能训完,又足够展示语言模型的核心行为。 获取数据时采用三级回退策略,保证在各种网络环境下都能跑起来: 核心代码逻辑: 设计要点: 包住可选依赖(datasets),缺失时优雅降级;最后兜底用标准库 直接下载。