第二章:第二节文本分块


文档摘要

第二节 文本分块 一、理解文本分块 文本分块(Text Chunking)是构建 RAG 流程的关键步骤。它的原理是将加载后的长篇文档,切分成更小、更易于处理的单元。这些被切分出的文本块,是后续向量检索和模型处理的基本单位。 文本分块示意图 二、文本分块重要性 2.1 满足模型上下文限制 将文本分块的首要原因,是为了适应 RAG 系统中两个核心组件的硬性限制: 嵌入模型 (Embedding Model): 负责将文本块转换为向量。这类模型有严格的输入长度上限。例如,许多常用的嵌入模型(如 )的上下文窗口为512个token。任何超出此限制的文本块在输入时都会被截断,导致信息丢失,生成的向量也无法完整代表原文的语义。因此,文本块的大小必须小于等于嵌入模型的上下文窗口。


发布者: 作者: 转发
评论区 (0)
U