第 4 章数据处理流水线

文档摘要

第 4 章数据处理流水线模型吃的是张量，不是文本。本章讲解原始文本如何经过「下载 → 分词 → 切窗」变成训练样本，以及本项目的两个特色：样本索引返回与训练/验证集切分。 4.1 数据流水线总览整条流水线的目标：把人类可读的文本，变成形状为的整数张量，供模型训练。 4.2 数据来源与三级回退策略本项目使用 Karpathy 的经典 tinyshakespeare 数据集（约 1MB 的莎士比亚文本），它小到单机几分钟就能训完，又足够展示语言模型的核心行为。获取数据时采用三级回退策略，保证在各种网络环境下都能跑起来：核心代码逻辑：设计要点：包住可选依赖（datasets），缺失时优雅降级；最后兜底用标准库直接下载。

第 4 章 数据处理流水线

文档摘要

第 4 章数据处理流水线