返回资源中心

RedPajama-V2 Dataset

数据集
数据分析
0 次浏览
0 个赞
数据集LLM训练开源

资源描述

包含超过 30 万亿个 Token 的开源预训练数据集,旨在为大语言模型训练提供透明、可追溯的高质量语料。

详细内容

https://github.com/togethercomputer/RedPajama-Data