首页
>
资源中心
>
RedPajama-V2 Dataset
返回资源中心
正在加载资源详情...
加载失败,请稍后重试
RedPajama-V2 Dataset
数据集
数据分析
0
次浏览
0
个赞
数据集
LLM训练
开源
访问链接
点赞
资源描述
包含超过 30 万亿个 Token 的开源预训练数据集,旨在为大语言模型训练提供透明、可追溯的高质量语料。
详细内容
https://github.com/togethercomputer/RedPajama-Data
相关资源
Kaggle Titanic Dataset
RedPajama-Data-v2
MovieLens
OpenWebText
FineWeb-Edu
ShareGPT Dataset