首页
>
资源中心
>
HuggingFace FineWeb
返回资源中心
正在加载资源详情...
加载失败,请稍后重试
HuggingFace FineWeb
数据集
机器学习
1
次浏览
0
个赞
LLM
Dataset
Training
ML
访问链接
点赞
资源描述
一个包含 15 万亿 Token 的超高质量网页数据集,经过极端严格的清洗和去重,是训练现代大语言模型(LLM)的新基准数据集。
详细内容
FineWeb is a large-scale, high-quality dataset derived from Common Crawl, optimized for training large language models.
相关资源
ImageNet
MNIST 手写数字集
Hugging Face Hub Datasets
RedPajama-V2 Dataset
LAION-5B Open Dataset
Open-Orca Dataset