首页
>
资源中心
>
Hugging Face FineWeb Dataset
返回资源中心
正在加载资源详情...
加载失败,请稍后重试
Hugging Face FineWeb Dataset
数据集
数据分析
0
次浏览
0
个赞
Dataset
LLM
Pre-training
访问链接
点赞
资源描述
包含 15 万亿个 Token 的超大规模高质量网页数据集,经过严格清洗,是训练当前最先进开源大语言模型的核心语料。
详细内容
FineWeb is a large-scale dataset derived from Common Crawl, optimized for pre-training large language models.
相关资源
Kaggle Titanic Dataset
RedPajama-Data-v2
MovieLens
OpenWebText
FineWeb-Edu
Hugging Face Datasets Hub