返回资源中心

HuggingFace FineWeb

数据集
机器学习
1 次浏览
0 个赞
LLMDatasetTrainingML

资源描述

一个包含 15 万亿 Token 的超高质量网页数据集,经过极端严格的清洗和去重,是训练现代大语言模型(LLM)的新基准数据集。

详细内容

FineWeb is a large-scale, high-quality dataset derived from Common Crawl, optimized for training large language models.