OpenHermes 2.5 Dataset

数据集

机器学习

3 次浏览

0 个赞

Fine-tuningInstructLLM Data

访问链接

资源描述

OpenHermes 2.5 是一款专为大语言模型指令微调（SFT）设计的高质量开源数据集，收录近百万条经过清洗与格式化的样本。内容深度覆盖代码生成、数学逻辑推理、自然语言问答及创意写作等核心领域。该数据集结构规范、噪声极低，广泛适用于 7B 至 70B 参数规模开源模型的二次训练，能显著提升模型的指令遵循能力与泛化表现，是当前 AI 开发者微调主流基座模型的首选资源之一。

详细内容

## 数据集背景与来源 OpenHermes 2.5 由开源社区研究者 teknium 主导构建，旨在为开源大模型提供一套标准化、高可用的指令微调数据基座。该数据集并非单一来源，而是整合了多个优质开源语料（如 CodeAlpaca、ShareGPT 多轮对话、WizardLM 自我进化增强数据、Alpaca 风格指令等），并通过自动化流水线进行去重、质量过滤、格式统一与敏感内容剔除。其设计初衷是降低开发者获取高质量 SFT 数据的门槛，加速开源模型在指令跟随与复杂任务处理上的能力跃升。 ## 数据规模与标注信息 - **数据规模**：约 100 万条独立指令样本，兼顾训练覆盖率与计算成本，适合消费级至企业级 GPU 集群。 - **内容分布**：高度多元化，涵盖编程开发（Python/JS/C++/SQL 等）、数学与逻辑推理、通用常识问答、角色扮演、创意写作、工具/API 调用及结构化输出等。 - **标注格式**：采用标准的三字段字典结构： - `instruction`：用户下达的核心指令 - `input`：可选的上下文、约束条件或参考文本（无则留空） - `output`：模型应生成的完整、准确且符合格式的回复所有样本均经过人工抽检与规则校验，确保指令意图清晰、答案可验证、格式一致，噪声率显著低于早期同类数据集。 ## 典型应用场景 1. **开源模型 SFT 训练**：作为 Llama 3、Mistral、Qwen、Yi 等基座模型的微调标准数据，用于强化指令遵循、多轮对话连贯性及复杂任务拆解能力。 2. **垂直领域 Agent 构建**：结合行业知识库或私有 API 文档进行混合微调，可快速搭建智能客服、代码 Copilot、数学解题助手或业务逻辑推理 Agent。 3. **算法研究与基准测试**：适用于指令遵循能力评估（如 IFEval/HF-Eval）、RLHF/DPO 前置阶段的数据准备，以及不同 Prompt 模板与训练超参的效果对比实验。 ## 使用注意事项 - **版权与合规审查**：数据集虽已做聚合处理，但部分子集可能继承原始开源协议（如 MIT、Apache 2.0、CC-BY-NC 等）。商用或闭源发布前，请务必核对 HuggingFace 页面公示的总许可协议及各源数据声明，确保合规。 - **预处理与分词对齐**：不同模型 Tokenizer 的分词边界差异较大，建议在正式训练前使用 `datasets` 库进行分词对齐；若显存受限，可考虑对超长样本进行截断或按长度分批。 - **训练策略建议**：推荐学习率区间 1e-5 ~ 5e-5，配合 3%~5% 的 Warmup 步数；使用 LoRA/QLoRA 微调时，需关注 Rank 与 Alpha 参数的匹配度，避免指令记忆能力下降。 - **领域偏差管理**：尽管数据分布均衡，但若业务强依赖特定领域（如金融合规或医疗诊断），建议按比例注入垂直语料进行加权采样，以防通用知识稀释关键领域表现。

OpenHermes 2.5 Dataset

资源描述

详细内容

相关资源