Hugging Face FineWeb Dataset

数据集

数据分析

2 次浏览

0 个赞

DatasetLLMPre-training

访问链接

资源描述

Hugging Face FineWeb 是基于 Common Crawl 深度清洗与去重构建的超大规模网页语料库，包含约 15 万亿 Token。该数据集采用多级质量过滤 Pipeline，专为大语言模型（LLM）预训练优化，具备高信息密度与低噪声特性。适用于开源 LLM 从零训练、领域持续预训练及数据清洗算法研究。提供标准 Parquet 格式与流式加载支持，是构建高性能基座模型的核心数据基础设施。

详细内容

## 数据集背景与来源 FineWeb 由 Hugging Face 团队开源，底层数据源自 Common Crawl 的多次网页快照。针对原始网页数据中普遍存在的噪声、重复与低质内容，官方设计了工业级的数据清洗 Pipeline，涵盖 URL 过滤、语言识别、启发式质量评分、MinHash 模糊去重等核心步骤，最终提炼出专为大语言模型（LLM）预训练优化的高质量文本语料。 ## 数据规模与标注信息 - **数据体量**：完整版本包含约 15 万亿（15T）Token，按时间快照与质量等级划分多个子集，支持按需下载。 - **数据格式**：采用列式存储的 Parquet 格式，字段包含原始文本（text）、URL、抓取时间、语言标识及质量评分等元数据。 - **标注情况**：属于无监督预训练语料，未进行人工指令微调或对话标注。数据已做规范化与编码清洗，可直接配合主流 Tokenizer 进行分词训练。 ## 典型应用场景 - **LLM 基座预训练**：作为核心语料用于从零训练数十亿至千亿参数规模的开源大模型。 - **持续预训练（Continued Pre-training）**：结合垂直领域数据对现有模型进行知识注入与能力扩展。 - **数据工程研究**：用于评估数据清洗策略、去重算法及数据配比对模型最终性能的影响。 - **长文本与多语言实验**：依托海量网页上下文，支持长窗口建模、上下文学习及跨语言表征研究。 ## 使用注意事项 - **加载方式**：数据总量达 TB 级别，强烈建议使用 Hugging Face `datasets` 库的 `streaming=True` 模式进行流式读取，避免本地内存或磁盘溢出。 - **内容安全**：尽管经过严格过滤，网页源数据仍可能残留少量偏见、过时信息或敏感内容。用于生产环境前建议结合业务场景进行二次安全过滤与合规审查。 - **算力要求**：全量训练需大规模分布式 GPU 集群支持。资源受限团队建议优先抽样小子集或选用 FineWeb-Edu 教育子集进行实验验证。 - **许可协议**：遵循 Common Crawl 衍生数据相关协议及 Hugging Face 数据集条款，商用前请务必查阅官方仓库最新的 License 说明与引用要求。

Hugging Face FineWeb Dataset

资源描述

详细内容

相关资源