返回资源中心

Hugging Face FineWeb Dataset

数据集
数据分析
0 次浏览
0 个赞
DatasetLLMPre-training

资源描述

包含 15 万亿个 Token 的超大规模高质量网页数据集,经过严格清洗,是训练当前最先进开源大语言模型的核心语料。

详细内容

FineWeb is a large-scale dataset derived from Common Crawl, optimized for pre-training large language models.