返回资源中心

OpenHermes 2.5 Dataset

数据集
机器学习
3 次浏览
0 个赞
Fine-tuningInstructLLM Data

资源描述

OpenHermes 2.5 是一款专为大语言模型指令微调(SFT)设计的高质量开源数据集,收录近百万条经过清洗与格式化的样本。内容深度覆盖代码生成、数学逻辑推理、自然语言问答及创意写作等核心领域。该数据集结构规范、噪声极低,广泛适用于 7B 至 70B 参数规模开源模型的二次训练,能显著提升模型的指令遵循能力与泛化表现,是当前 AI 开发者微调主流基座模型的首选资源之一。

详细内容

## 数据集背景与来源 OpenHermes 2.5 由开源社区研究者 teknium 主导构建,旨在为开源大模型提供一套标准化、高可用的指令微调数据基座。该数据集并非单一来源,而是整合了多个优质开源语料(如 CodeAlpaca、ShareGPT 多轮对话、WizardLM 自我进化增强数据、Alpaca 风格指令等),并通过自动化流水线进行去重、质量过滤、格式统一与敏感内容剔除。其设计初衷是降低开发者获取高质量 SFT 数据的门槛,加速开源模型在指令跟随与复杂任务处理上的能力跃升。 ## 数据规模与标注信息 - **数据规模**:约 100 万条独立指令样本,兼顾训练覆盖率与计算成本,适合消费级至企业级 GPU 集群。 - **内容分布**:高度多元化,涵盖编程开发(Python/JS/C++/SQL 等)、数学与逻辑推理、通用常识问答、角色扮演、创意写作、工具/API 调用及结构化输出等。 - **标注格式**:采用标准的三字段字典结构: - `instruction`:用户下达的核心指令 - `input`:可选的上下文、约束条件或参考文本(无则留空) - `output`:模型应生成的完整、准确且符合格式的回复 所有样本均经过人工抽检与规则校验,确保指令意图清晰、答案可验证、格式一致,噪声率显著低于早期同类数据集。 ## 典型应用场景 1. **开源模型 SFT 训练**:作为 Llama 3、Mistral、Qwen、Yi 等基座模型的微调标准数据,用于强化指令遵循、多轮对话连贯性及复杂任务拆解能力。 2. **垂直领域 Agent 构建**:结合行业知识库或私有 API 文档进行混合微调,可快速搭建智能客服、代码 Copilot、数学解题助手或业务逻辑推理 Agent。 3. **算法研究与基准测试**:适用于指令遵循能力评估(如 IFEval/HF-Eval)、RLHF/DPO 前置阶段的数据准备,以及不同 Prompt 模板与训练超参的效果对比实验。 ## 使用注意事项 - **版权与合规审查**:数据集虽已做聚合处理,但部分子集可能继承原始开源协议(如 MIT、Apache 2.0、CC-BY-NC 等)。商用或闭源发布前,请务必核对 HuggingFace 页面公示的总许可协议及各源数据声明,确保合规。 - **预处理与分词对齐**:不同模型 Tokenizer 的分词边界差异较大,建议在正式训练前使用 `datasets` 库进行分词对齐;若显存受限,可考虑对超长样本进行截断或按长度分批。 - **训练策略建议**:推荐学习率区间 1e-5 ~ 5e-5,配合 3%~5% 的 Warmup 步数;使用 LoRA/QLoRA 微调时,需关注 Rank 与 Alpha 参数的匹配度,避免指令记忆能力下降。 - **领域偏差管理**:尽管数据分布均衡,但若业务强依赖特定领域(如金融合规或医疗诊断),建议按比例注入垂直语料进行加权采样,以防通用知识稀释关键领域表现。