首页
>
资源中心
>
Common Crawl
返回资源中心
互联网公开网页的庞大数据库,包含数千亿个网页,是训练 LLM(如 GPT-3/4)最核心的原始语料来源之一。
正在加载资源详情...
加载失败,请稍后重试
Common Crawl
0
次浏览
0
个赞
资源描述
详细内容
相关资源
ImageNet
MNIST 手写数字集
RedPajama-V2 Dataset
Hugging Face Hub Datasets
RedPajama-Data-1T
OpenHermes 2.5 Dataset