第八章:第二节数据准备模块实现


文档摘要

第二节 数据准备模块实现 RAG系统的效果很大程度上取决于数据准备的质量。在上一节中,我们明确了"小块检索,大块生成"的父子文本块策略。接下来学习如何将数据准备部分的架构思想转化为可运行的代码。 一、核心设计 数据准备模块的核心是实现"小块检索,大块生成"的父子文本块架构。 父子文本块映射关系: 基本流程: 检索阶段:使用小的子块进行精确匹配,提高检索准确性 生成阶段:传递完整的父文档给LLM,确保上下文完整性 智能去重:当检索到同一道菜的多个子块时,合并为一个完整菜谱 元数据增强: 菜品分类:从文件路径推断(荤菜、素菜、汤品等) 难度等级:从内容中的星级标记提取 菜品名称:从文件名提取 文档关系:建立父子文档的ID映射关系 二、模块实现详解 datapreparation.


发布者: 作者: 转发
评论区 (0)
U