返回资源中心

The Stack (BigCode)

数据集
编程辅助
2 次浏览
0 个赞
代码训练集开源协议

资源描述

包含 300 亿个 Token 的开源代码数据集,支持 300 多种编程语言。

详细内容

这是一个 3.1 TB 的巨型开源代码数据集,仅包含通过许可协议(Permissive)授权的代码,规避了版权风险。涵盖 300 多种编程语言,是训练 StarCoder、DeepSeek-Coder 等代码大模型的核心支柱。