首页
>
资源中心
>
The Pile Dataset
返回资源中心
一个 800GB 的开源英文文本数据集,由 22 个较小的子数据集组成,是训练 GPT-J 等大型语言模型的核心语料。
正在加载资源详情...
加载失败,请稍后重试
The Pile Dataset
0
次浏览
0
个赞
资源描述
详细内容
相关资源
Kaggle Titanic Dataset
RedPajama-Data-v2
MovieLens
OpenWebText
FineWeb-Edu
FineWeb