nanochat 数据处理完全指南


文档摘要

nanochat 数据处理完全指南 本文档详细介绍 nanochat 项目的数据处理流程,适合初学者阅读。 数据源说明 本项目针对不同地区用户提供了优化的数据访问方案: 国内版(推荐) 预训练数据:使用 ModelScope 平台的 FineWeb-Edu 数据集(ModelScope) 优势:国内访问速度快、稳定性高、无需特殊网络配置 配置:项目已默认使用国内源,无需额外设置 国际版 预训练数据:使用 HuggingFace 原始数据集 FineWeb-Edu 原始数据集 适用:海外用户或需要访问原始数据源 配置:需要修改 中的数据源配置 目录 数据处理概览 数据类型与来源 数据处理流程 详细操作步骤 数据处理技术细节 数据检查工具集 数据格式说明 数据量计算 常见问题解答 数据处理概览


发布者: 作者: 转发
评论区 (0)
U