2025年5月27日:大型语言模型与检索增强生成(RAG)技术最新进展深度导读 引言:大型语言模型的阿喀琉斯之踵与RAG的应运而生 大型语言模型(LLMs),如OpenAI的GPT系列、Google的LaMDA以及国内的Qwen系列,已成为人工智能领域的核心驱动力。它们在自然语言处理任务中表现出前所未有的能力,包括但不限于文本生成、语义理解、逻辑推理和多语言翻译。这些模型被广泛应用于机器翻译、文本摘要、智能客服、内容创作等领域,极大地提高了生产效率和用户体验。然而,LLMs并非无懈可击,其内在的局限性也日益显现,主要体现在以下两个关键方面: 知识更新的滞后性:LLMs的知识库主要来源于其训练数据集,而这些数据集的构建和更新速度远滞后于现实世界知识的快速演变。
大型语言模型(LLMs),如OpenAI的GPT系列、Google的LaMDA以及国内的Qwen系列,已成为人工智能领域的核心驱动力。它们在自然语言处理任务中表现出前所未有的能力,包括但不限于文本生成、语义理解、逻辑推理和多语言翻译。这些模型被广泛应用于机器翻译、文本摘要、智能客服、内容创作等领域,极大地提高了生产效率和用户体验。然而,LLMs并非无懈可击,其内在的局限性也日益显现,主要体现在以下两个关键方面:
知识更新的滞后性:LLMs的知识库主要来源于其训练数据集,而这些数据集的构建和更新速度远滞后于现实世界知识的快速演变。这意味着LLMs在面对新出现的概念、事件或信息时,往往无法提供准确或及时的回答。这种知识更新的滞后性严重限制了LLMs在需要实时信息或专业领域知识的应用场景中的实用性。
举例: 假设一个LLM在2024年初接受训练,那么当用户在2025年5月询问关于“RAG-MCP”或“Parametric RAG”的最新进展时,该模型可能无法提供准确信息,因为它没有接受过关于这些新兴技术的训练。更具体地说,如果用户询问“RAGFlow引擎的开源情况”,一个2024年初训练的模型将完全无法回答。
幻觉问题(Hallucination):LLMs在生成文本时,有时会“无中生有”,编造不存在的事实或信息,即产生幻觉。这种幻觉问题源于LLMs基于概率分布的生成机制,缺乏对事实的严格约束和验证。幻觉问题严重影响了LLMs的可靠性和可信度,限制了其在需要高度准确性和真实性的场景中的应用,例如医疗诊断、金融分析和法律咨询。
举例: 一个LLM在被要求描述“量子计算机在金融风险管理中的应用”时,可能会生成一些看似合理但实际上不存在的技术细节或研究成果,从而误导用户。更甚者,模型可能会自信地声称“A公司已经成功利用量子算法将投资回报率提高了300%”,而这完全是虚构的。
为了有效应对LLMs的上述挑战,检索增强生成(Retrieval-Augmented Generation,RAG)技术应运而生。RAG通过将LLMs与外部知识库相结合,使其能够在生成文本时,动态地检索相关信息,从而提高生成文本的知识性和准确性。RAG技术可以有效地缓解LLMs的知识更新滞后和幻觉问题,已成为当前LLMs研究和应用的热点方向。RAG的核心在于弥合LLM的参数化知识(Parametric Knowledge)与非参数化知识(Non-Parametric Knowledge)之间的鸿沟,从而实现更可靠、更可信的AI系统。1
RAG技术的核心思想是在生成文本之前,先从外部知识库中检索相关信息,然后将检索到的信息融入到LLMs的输入中,引导LLMs生成更准确、更可靠的文本。根据检索和融合机制的不同,RAG技术可以分为多种主要范式。这些范式并非相互排斥,而是可以相互结合,形成更强大的RAG系统。下表总结了这些范式,并分析了它们的优缺点和适用场景:2
| 范式 (Paradigm) | 描述 (Description) | 优点 (Advantages) | 缺点 (Disadvantages) | 适用场景 (Applicable Scenarios) | 代表性技术 (Representative Technologies) |
|---|---|---|---|---|---|
| Naive RAG | 直接将检索到的文本片段与原始问题拼接在一起,作为LLMs的输入。 | 简单易实现,易于快速原型验证。 | 检索到的文本片段可能包含噪声或冗余信息,影响LLMs的生成效果;缺乏对检索结果的精细处理。 | 适用于对知识准确性要求不高的快速原型验证场景,例如简单的问答系统。 | 基本的文本拼接、关键词检索。 |
| Advanced RAG | 引入更复杂的检索和融合机制,例如使用更先进的检索模型、文本摘要技术和注意力机制。 | 提高了检索的准确率和生成质量,能够更好地处理噪声和冗余信息。 | 实现复杂度较高,需要更多的计算资源和专业知识。 | 适用于对知识准确性和生成质量有较高要求的场景,例如智能客服、知识问答、报告生成等。 | BERT、Sentence-BERT、TextRank、Transformer注意力机制、向量数据库(FAISS、Annoy)。 |
| Modular RAG | 将RAG流程分解为多个独立的模块,每个模块负责完成特定的任务,例如检索、过滤、摘要、生成等。 | 灵活性高,可以根据不同的应用场景,选择不同的模块组合;易于维护和扩展。 | 需要仔细设计各个模块的功能和接口,以及模块之间的协作方式;模块之间的依赖关系可能导致性能瓶颈。 | 适用于需要高度定制化的复杂应用场景,例如智能助手、内容创作、流程自动化等。 | LangChain、LlamaIndex、RAGFlow。 |
| Graph RAG | 利用图结构(例如知识图谱)来表示知识库中的信息,并使用图神经网络(GNN)来检索相关信息。 | 可以处理复杂的知识关系,提高检索的准确率;能够进行推理和知识发现。 | 图结构的构建和维护成本较高,需要专业的知识图谱技术;GNN的训练和推理需要大量的计算资源。 | 适用于知识密集型应用场景,例如医学诊断、金融分析、法律咨询、智能推荐等。 | 知识图谱、图数据库(Neo4j)、图神经网络(GCN、GAT)。 |
| Parametric RAG | 通过文档参数化将外部知识直接集成到LLM的前馈网络(FFN)的参数中。 | 减少了对上下文窗口的依赖,提高了知识检索和利用的效率;能够进行端到端的优化。 | 需要对知识进行参数化表示,可能会损失部分信息;对LLM的结构和训练方式有较高要求。 | 适用于对检索效率有较高要求的场景,例如实时问答、搜索推荐、对话生成等。 | Hyper-RAG、Note-RAG。 |
| Agentic RAG | 将RAG系统与智能体(Agent)框架相结合,使系统能够自主地进行知识检索、推理和决策。 | 能够处理复杂的任务和多轮对话;具有更强的自主性和适应性。 | 实现复杂度极高,需要综合运用多种AI技术;对智能体的设计和训练有较高要求。 | 适用于需要高度智能化的复杂应用场景,例如智能助手、任务自动化、决策支持等。 | AutoGPT、BabyAGI、LangChain Agents。 |
这是最简单的RAG范式,它直接将检索到的文本片段与原始问题拼接在一起,作为LLMs的输入。Naive RAG的优点是简单易实现,易于快速原型验证。然而,其缺点也十分明显:检索到的文本片段可能包含噪声或冗余信息,影响LLMs的生成效果;缺乏对检索结果的精细处理,容易受到检索质量的影响。
举例: 用户提问:“RAG是什么?”,Naive RAG直接将检索到的包含RAG定义的文本片段与问题拼接,输入LLM,让LLM生成答案。例如,如果检索到以下文本片段:“RAG是一种将检索和生成相结合的技术,可以提高LLM的知识性和准确性。”,那么Naive RAG会将问题和文本片段拼接成:“RAG是什么?RAG是一种将检索和生成相结合的技术,可以提高LLM的知识性和准确性。”,然后输入LLM。3
为了解决Naive RAG的不足,Advanced RAG引入了更复杂的检索和融合机制。例如:
举例: 使用BERT模型对问题和知识库文档进行编码,然后计算相似度进行检索;使用TextRank算法对检索到的文档进行摘要,提取关键信息;使用Transformer的注意力机制,让LLM关注问题和摘要中的重要词语。
Modular RAG将RAG流程分解为多个独立的模块,每个模块负责完成特定的任务。例如:
Modular RAG的优点是灵活性高,可以根据不同的应用场景,选择不同的模块组合。例如,在对准确性要求较高的场景中,可以使用更严格的过滤模块;在对生成速度要求较高的场景中,可以使用更轻量级的生成模块。此外,Modular RAG易于维护和扩展,可以方便地添加新的模块或替换现有的模块。RAGFlow就是一个典型的Modular RAG引擎,它集成了多种技术,并支持快速更新。
Graph RAG利用图结构(例如知识图谱)来表示知识库中的信息,并使用图神经网络(GNN)来检索相关信息。图结构可以有效地表示实体之间的关系,例如知识图谱中的实体和关系。GNN可以学习图结构中的节点表示,从而提高检索的准确率。Graph RAG不仅可以进行信息检索,还可以进行推理和知识发现。
举例: 将知识库表示为知识图谱,实体作为节点,关系作为边;使用GCN、GAT等GNN模型学习节点表示,然后根据问题和节点表示的相似度进行检索。例如,如果用户提问“引起新冠肺炎的病毒是什么?”,Graph RAG可以通过知识图谱推理出“新冠肺炎 -> 引起 -> SARS-CoV-2”,从而找到答案。
Parametric RAG通过文档参数化将外部知识直接集成到LLM的前馈网络(FFN)的参数中。这种方法不仅减少了对上下文窗口的依赖,还提高了知识检索和利用的效率。Parametric RAG的核心思想是将知识压缩成模型的参数,从而避免了每次生成文本时都需要进行外部检索的开销。清华大学提出的Hyper-RAG和Note-RAG都属于Parametric RAG的范畴。4
举例: 使用预训练的语言模型对知识库文档进行编码,然后将编码后的向量作为LLM的参数进行微调。在生成文本时,LLM可以直接从参数中获取知识,无需进行外部检索。
Agentic RAG将RAG系统与智能体(Agent)框架相结合,使系统能够自主地进行知识检索、推理和决策。Agentic RAG可以处理复杂的任务和多轮对话,具有更强的自主性和适应性。智能体可以根据用户的需求,自主地选择合适的工具和知识源,并进行推理和决策,从而完成复杂的任务。
举例: 用户向智能助手提问“预订明天早上8点从北京到上海的机票”,Agentic RAG可以自主地进行以下操作:(1) 使用搜索引擎检索机票信息;(2) 使用日历工具查询用户是否有会议冲突;(3) 使用支付工具完成支付;(4) 向用户发送确认信息。
最近的研究表明,RAG系统存在着“干扰效应”问题。当检索到的段落虽然与查询相关,但不包含正确答案时,会误导LLMs生成错误回答。Amiraz et al. (2025) 提出了“distracting effect”(DE)指标,该指标衡量 LLM 在给定无关段落时未能 abstaining(即生成非“NO-RESPONSE”回答)的概率。实验结果表明,超过 60% 的查询在其前 10 个检索到的段落中至少包含一个高度干扰的段落。为了解决这个问题,研究人员提出了一些新的方法,例如:5
另一项研究表明,LLMs存在着位置偏差,即它们对输入文本中不同位置的信息给予不同的关注。例如,LLMs倾向于关注输入文本开头和结尾的信息,而忽略中间的信息。这种现象被称为“Lost-in-the-Middle”效应。为了解决这个问题,研究人员提出了一些新的方法,例如:6
面对工具生态系统扩张,大型语言模型的工具选择能力因提示词膨胀而受限。RAG-MCP通过检索增强生成技术实现动态工具选择,显著提升处理效率与准确性。RAG-MCP框架通过检索增强生成技术,有效解决了大型语言模型(LLMs)在工具选择中面临的提示词膨胀问题。随着工具生态系统的扩展,LLMs需要从大量工具中选择合适的工具来完成任务。传统的做法是将所有工具的信息都放在提示词中,但这会导致提示词过长,影响LLMs的性能。RAG-MCP通过检索与任务相关的工具信息,并将这些信息加入到提示词中,从而减少了提示词的长度,提高了工具选择的准确性。RAG-MCP的核心在于将工具描述存储在向量数据库中,并使用LLM作为检索器,根据用户查询动态地选择合适的工具。7
清华大学的研究者提出了Parametric Retrieval Augmented Generation。该研究通过文档参数化将外部知识直接集成到LLM的前馈网络(FFN)的参数中,减少了对上下文窗口的依赖,并提高了知识检索和利用的效率。Parametric RAG通过将外部知识直接融入大型语言模型的参数中,有效地解决了传统RAG方法面临的计算开销、知识利用效率等问题。这种方法可以看作是一种“知识蒸馏” (Knowledge Distillation) 的过程,将外部知识压缩到模型的参数中,从而避免了每次生成文本时都需要进行外部检索的开销。8
RAG技术是解决LLMs知识更新滞后和幻觉问题的重要手段。随着研究的深入,RAG技术不断发展,涌现出各种新的范式和方法。未来,RAG技术将朝着以下几个方向发展:
我们有理由相信,随着RAG技术的不断发展,LLMs将变得更加智能、更加可靠,为人类带来更大的价值。RAG技术不仅是解决LLM现有问题的有效手段,更是通往通用人工智能 (Artificial General Intelligence, AGI) 的重要桥梁。
RAG MCP通过检索增强生成技术实现动态工具选择 显著提升处理效率与准确率 本文深入剖析其技术原理与应用价值 大型语言模型 LLMs 如GPT 4 Claude和 RAG-MCP:基于检索增强生成的大模型工具选择优化框架 - 知乎专栏 ↩
一句话总结 RAG 中文为检索增强生成 检索技术 LLM 提示 例如 向LLM 提问一个问题 qustion RAG 从各种数据源检索相关的信息 并将检索到的信息和问题 answer 注入到 一文读懂:大模型RAG(检索增强生成)含高级方法 - 知乎专栏 ↩
Parametric RAG作为一种新颖的知识增强范式 通过将外部知识直接融入大型语言模型的参数中 有效地解决了传统RAG方法面临的计算开销 知识利用效率等问题 Parametric RAG : 通过文档参数化加强大模型中的知识整合 - 知乎专栏 ↩
本文深入探讨了Retrieval Augmented Generation RAG 的发展历程 从基础概念到最新技术 RAG 通过结合检索与生成模型 有效提升了输出准确性 克服了LLM 的 15种必知RAG框架,最新综述! - 360Doc ↩
DeepSeek R1 通过强化学习激励LLMs中的推理能力 DeepSeek R1 Incentivizing Reasoning Capability in LLMs via Reinforcement Learning 分心效应:理解RAG模型中的无关段落 - ChatPaper - AI ↩
本文使用 Amiraz et al 2025 提出的 distracting effect DE 指标 该指标衡量 LLM 在给定无关段落时未能 abstaining 即生成非 NO RESPONSE 回答 的概率 研究首先表明 回答准确性不仅取决于相关段落的位置 也取决于干扰段落的位置 论文审查 Do RAG Systems Suffer From Positional Bias https themoonlight io zh review do rag systems suffer from positional bias ↩
为此 我们引入了参数检索增强生成 Parametric RAG 这是一种新的RAG范式 通过文档参数化将外部知识直接集成到LLM的前馈网络 FFN 的参数中 这种方法不仅 清华:外部知识注入LLM参数增强RAG 原创 - CSDN博客 ↩
LLMs 的另一个正交弱点是位置偏差 将相同的信息放在提示中的不同位置会改变回答 并可能极大地影响其准确性 例如 Lost in the middle 效应描述了 LLMs 倾向于关注提示开头或结尾的信息 然而 先前的分析通常在受控设置 controlled setting 下研究此问题 例如在一个主要包含无关段落 irrelevant passages 的提示中旋转 唯一 相关段落的位置 这种人为设置不仅放大了位置偏差的影响 而且忽略了位置偏差如何影响 LLMs 对干扰段落的脆弱性 vulnerability 而后者是本文的核心研究内容 论文审查 Do RAG Systems Suffer From Positional Bias https themoonlight io zh review do rag systems suffer from positional bias ↩
RAG的五大范式 包括朴素RAG 高级RAG 模块化RAG GraphRAG和最新的AgenticRAG 并总结了构建RAG 摘要 检索增强生成 RAG 系统通过整合外部知识源来增强 最全梳理:一文搞懂RAG技术的5种范式! - 腾讯云 ↩
1比特LLM时代 所有大型语言模型均为1 58比特 The Era of 1 bit LLMs All Large Language Models are in 1 58 Bits 分心效应:理解RAG模型中的无关段落 - ChatPaper - AI ↩