首页
>
资源中心
>
RedPajama-Data-v2
返回资源中心
包含超过 30 万亿个 Token 的大规模开源数据集,经过严格清洗,是训练高性能基础语言模型的核心资源。
正在加载资源详情...
加载失败,请稍后重试
RedPajama-Data-v2
0
次浏览
0
个赞
资源描述
详细内容
相关资源
Kaggle Titanic Dataset
MovieLens
OpenWebText
FineWeb-Edu
FineWeb
ShareGPT Dataset