首页
>
资源中心
>
The Pile
返回资源中心
一个 800GB 的开源英文文本数据集,包含 22 个高质量子数据集,是训练 GPT 系列等大语言模型的重要数据来源。
正在加载资源详情...
加载失败,请稍后重试
The Pile
0
次浏览
0
个赞
资源描述
详细内容
相关资源
Kaggle Titanic Dataset
RedPajama-Data-v2
MovieLens
OpenWebText
FineWeb-Edu
FineWeb