首页
>
资源中心
>
The Stack (BigCode)
返回资源中心
正在加载资源详情...
加载失败,请稍后重试
The Stack (BigCode)
数据集
编程辅助
2
次浏览
0
个赞
代码
训练集
开源协议
访问链接
点赞
资源描述
包含 300 亿个 Token 的开源代码数据集,支持 300 多种编程语言。
详细内容
这是一个 3.1 TB 的巨型开源代码数据集,仅包含通过许可协议(Permissive)授权的代码,规避了版权风险。涵盖 300 多种编程语言,是训练 StarCoder、DeepSeek-Coder 等代码大模型的核心支柱。
相关资源
HumanEval
GitHub Code Clean