2025年5月27日：大型语言模型与检索增强生成（RAG）技术最新进展深度导读

文档摘要

2025年5月27日：大型语言模型与检索增强生成（RAG）技术最新进展深度导读引言：大型语言模型的阿喀琉斯之踵与RAG的应运而生大型语言模型（LLMs），如OpenAI的GPT系列、Google的LaMDA以及国内的Qwen系列，已成为人工智能领域的核心驱动力。它们在自然语言处理任务中表现出前所未有的能力，包括但不限于文本生成、语义理解、逻辑推理和多语言翻译。这些模型被广泛应用于机器翻译、文本摘要、智能客服、内容创作等领域，极大地提高了生产效率和用户体验。然而，LLMs并非无懈可击，其内在的局限性也日益显现，主要体现在以下两个关键方面：知识更新的滞后性：LLMs的知识库主要来源于其训练数据集，而这些数据集的构建和更新速度远滞后于现实世界知识的快速演变。

2025年5月27日：大型语言模型与检索增强生成（RAG）技术最新进展深度导读

引言：大型语言模型的阿喀琉斯之踵与RAG的应运而生

大型语言模型（LLMs），如OpenAI的GPT系列、Google的LaMDA以及国内的Qwen系列，已成为人工智能领域的核心驱动力。它们在自然语言处理任务中表现出前所未有的能力，包括但不限于文本生成、语义理解、逻辑推理和多语言翻译。这些模型被广泛应用于机器翻译、文本摘要、智能客服、内容创作等领域，极大地提高了生产效率和用户体验。然而，LLMs并非无懈可击，其内在的局限性也日益显现，主要体现在以下两个关键方面：

知识更新的滞后性：LLMs的知识库主要来源于其训练数据集，而这些数据集的构建和更新速度远滞后于现实世界知识的快速演变。这意味着LLMs在面对新出现的概念、事件或信息时，往往无法提供准确或及时的回答。这种知识更新的滞后性严重限制了LLMs在需要实时信息或专业领域知识的应用场景中的实用性。

举例：假设一个LLM在2024年初接受训练，那么当用户在2025年5月询问关于“RAG-MCP”或“Parametric RAG”的最新进展时，该模型可能无法提供准确信息，因为它没有接受过关于这些新兴技术的训练。更具体地说，如果用户询问“RAGFlow引擎的开源情况”，一个2024年初训练的模型将完全无法回答。
幻觉问题（Hallucination）：LLMs在生成文本时，有时会“无中生有”，编造不存在的事实或信息，即产生幻觉。这种幻觉问题源于LLMs基于概率分布的生成机制，缺乏对事实的严格约束和验证。幻觉问题严重影响了LLMs的可靠性和可信度，限制了其在需要高度准确性和真实性的场景中的应用，例如医疗诊断、金融分析和法律咨询。

举例：一个LLM在被要求描述“量子计算机在金融风险管理中的应用”时，可能会生成一些看似合理但实际上不存在的技术细节或研究成果，从而误导用户。更甚者，模型可能会自信地声称“A公司已经成功利用量子算法将投资回报率提高了300%”，而这完全是虚构的。

为了有效应对LLMs的上述挑战，检索增强生成（Retrieval-Augmented Generation，RAG）技术应运而生。RAG通过将LLMs与外部知识库相结合，使其能够在生成文本时，动态地检索相关信息，从而提高生成文本的知识性和准确性。RAG技术可以有效地缓解LLMs的知识更新滞后和幻觉问题，已成为当前LLMs研究和应用的热点方向。RAG的核心在于弥合LLM的参数化知识（Parametric Knowledge）与非参数化知识（Non-Parametric Knowledge）之间的鸿沟，从而实现更可靠、更可信的AI系统。¹

RAG技术的核心范式：百花齐放，各有所长

RAG技术的核心思想是在生成文本之前，先从外部知识库中检索相关信息，然后将检索到的信息融入到LLMs的输入中，引导LLMs生成更准确、更可靠的文本。根据检索和融合机制的不同，RAG技术可以分为多种主要范式。这些范式并非相互排斥，而是可以相互结合，形成更强大的RAG系统。下表总结了这些范式，并分析了它们的优缺点和适用场景：²

范式 (Paradigm)	描述 (Description)	优点 (Advantages)	缺点 (Disadvantages)	适用场景 (Applicable Scenarios)	代表性技术 (Representative Technologies)
Naive RAG	直接将检索到的文本片段与原始问题拼接在一起，作为LLMs的输入。	简单易实现，易于快速原型验证。	检索到的文本片段可能包含噪声或冗余信息，影响LLMs的生成效果；缺乏对检索结果的精细处理。	适用于对知识准确性要求不高的快速原型验证场景，例如简单的问答系统。	基本的文本拼接、关键词检索。
Advanced RAG	引入更复杂的检索和融合机制，例如使用更先进的检索模型、文本摘要技术和注意力机制。	提高了检索的准确率和生成质量，能够更好地处理噪声和冗余信息。	实现复杂度较高，需要更多的计算资源和专业知识。	适用于对知识准确性和生成质量有较高要求的场景，例如智能客服、知识问答、报告生成等。	BERT、Sentence-BERT、TextRank、Transformer注意力机制、向量数据库（FAISS、Annoy）。
Modular RAG	将RAG流程分解为多个独立的模块，每个模块负责完成特定的任务，例如检索、过滤、摘要、生成等。	灵活性高，可以根据不同的应用场景，选择不同的模块组合；易于维护和扩展。	需要仔细设计各个模块的功能和接口，以及模块之间的协作方式；模块之间的依赖关系可能导致性能瓶颈。	适用于需要高度定制化的复杂应用场景，例如智能助手、内容创作、流程自动化等。	LangChain、LlamaIndex、RAGFlow。
Graph RAG	利用图结构（例如知识图谱）来表示知识库中的信息，并使用图神经网络（GNN）来检索相关信息。	可以处理复杂的知识关系，提高检索的准确率；能够进行推理和知识发现。	图结构的构建和维护成本较高，需要专业的知识图谱技术；GNN的训练和推理需要大量的计算资源。	适用于知识密集型应用场景，例如医学诊断、金融分析、法律咨询、智能推荐等。	知识图谱、图数据库（Neo4j）、图神经网络（GCN、GAT）。
Parametric RAG	通过文档参数化将外部知识直接集成到LLM的前馈网络（FFN）的参数中。	减少了对上下文窗口的依赖，提高了知识检索和利用的效率；能够进行端到端的优化。	需要对知识进行参数化表示，可能会损失部分信息；对LLM的结构和训练方式有较高要求。	适用于对检索效率有较高要求的场景，例如实时问答、搜索推荐、对话生成等。	Hyper-RAG、Note-RAG。
Agentic RAG	将RAG系统与智能体（Agent）框架相结合，使系统能够自主地进行知识检索、推理和决策。	能够处理复杂的任务和多轮对话；具有更强的自主性和适应性。	实现复杂度极高，需要综合运用多种AI技术；对智能体的设计和训练有较高要求。	适用于需要高度智能化的复杂应用场景，例如智能助手、任务自动化、决策支持等。	AutoGPT、BabyAGI、LangChain Agents。

1. Naive RAG：简单直接，快速上手

这是最简单的RAG范式，它直接将检索到的文本片段与原始问题拼接在一起，作为LLMs的输入。Naive RAG的优点是简单易实现，易于快速原型验证。然而，其缺点也十分明显：检索到的文本片段可能包含噪声或冗余信息，影响LLMs的生成效果；缺乏对检索结果的精细处理，容易受到检索质量的影响。

举例：用户提问：“RAG是什么？”，Naive RAG直接将检索到的包含RAG定义的文本片段与问题拼接，输入LLM，让LLM生成答案。例如，如果检索到以下文本片段：“RAG是一种将检索和生成相结合的技术，可以提高LLM的知识性和准确性。”，那么Naive RAG会将问题和文本片段拼接成：“RAG是什么？RAG是一种将检索和生成相结合的技术，可以提高LLM的知识性和准确性。”，然后输入LLM。³

2. Advanced RAG：精益求精，提升质量

为了解决Naive RAG的不足，Advanced RAG引入了更复杂的检索和融合机制。例如：

更先进的检索模型：使用BERT、Sentence-BERT等预训练模型，将问题和知识库文档编码成向量，然后计算向量之间的相似度进行检索，从而提高检索的准确率。
文本摘要技术：使用TextRank、LexRank等算法对检索到的文本片段进行摘要，提取关键信息，减少噪声干扰。
注意力机制：使用Transformer的注意力机制，让LLM更加关注问题和摘要中的重要词语，提高生成质量。
查询重写 (Query Rewriting)：在检索之前，对用户查询进行改写，使其更适合知识库的检索。例如，将“RAG的优点”改写为“RAG技术的优势和好处”。
检索结果重排序 (Retrieval Results Re-ranking)：对检索到的文档进行重排序，将更相关的文档排在前面。例如，使用交叉编码器 (Cross-Encoder) 对问题和文档进行联合编码，然后计算相似度进行排序。

举例：使用BERT模型对问题和知识库文档进行编码，然后计算相似度进行检索；使用TextRank算法对检索到的文档进行摘要，提取关键信息；使用Transformer的注意力机制，让LLM关注问题和摘要中的重要词语。

3. Modular RAG：灵活组合，定制方案

Modular RAG将RAG流程分解为多个独立的模块，每个模块负责完成特定的任务。例如：

检索模块：负责从知识库中检索相关信息。
过滤模块：负责过滤噪声信息。
摘要模块：负责提取关键信息。
生成模块：负责生成最终文本。

Modular RAG的优点是灵活性高，可以根据不同的应用场景，选择不同的模块组合。例如，在对准确性要求较高的场景中，可以使用更严格的过滤模块；在对生成速度要求较高的场景中，可以使用更轻量级的生成模块。此外，Modular RAG易于维护和扩展，可以方便地添加新的模块或替换现有的模块。RAGFlow就是一个典型的Modular RAG引擎，它集成了多种技术，并支持快速更新。

4. Graph RAG：知识图谱，关系推理

Graph RAG利用图结构（例如知识图谱）来表示知识库中的信息，并使用图神经网络（GNN）来检索相关信息。图结构可以有效地表示实体之间的关系，例如知识图谱中的实体和关系。GNN可以学习图结构中的节点表示，从而提高检索的准确率。Graph RAG不仅可以进行信息检索，还可以进行推理和知识发现。

举例：将知识库表示为知识图谱，实体作为节点，关系作为边；使用GCN、GAT等GNN模型学习节点表示，然后根据问题和节点表示的相似度进行检索。例如，如果用户提问“引起新冠肺炎的病毒是什么？”，Graph RAG可以通过知识图谱推理出“新冠肺炎 -> 引起 -> SARS-CoV-2”，从而找到答案。

5. Parametric RAG：参数融合，高效检索

Parametric RAG通过文档参数化将外部知识直接集成到LLM的前馈网络（FFN）的参数中。这种方法不仅减少了对上下文窗口的依赖，还提高了知识检索和利用的效率。Parametric RAG的核心思想是将知识压缩成模型的参数，从而避免了每次生成文本时都需要进行外部检索的开销。清华大学提出的Hyper-RAG和Note-RAG都属于Parametric RAG的范畴。⁴

举例：使用预训练的语言模型对知识库文档进行编码，然后将编码后的向量作为LLM的参数进行微调。在生成文本时，LLM可以直接从参数中获取知识，无需进行外部检索。

6. Agentic RAG：智能代理，自主决策

Agentic RAG将RAG系统与智能体（Agent）框架相结合，使系统能够自主地进行知识检索、推理和决策。Agentic RAG可以处理复杂的任务和多轮对话，具有更强的自主性和适应性。智能体可以根据用户的需求，自主地选择合适的工具和知识源，并进行推理和决策，从而完成复杂的任务。

举例：用户向智能助手提问“预订明天早上8点从北京到上海的机票”，Agentic RAG可以自主地进行以下操作：(1) 使用搜索引擎检索机票信息；(2) 使用日历工具查询用户是否有会议冲突；(3) 使用支付工具完成支付；(4) 向用户发送确认信息。

RAG技术的最新进展：挑战与机遇并存

1. RAG中的“干扰效应”问题：去伪存真，提高鲁棒性

最近的研究表明，RAG系统存在着“干扰效应”问题。当检索到的段落虽然与查询相关，但不包含正确答案时，会误导LLMs生成错误回答。Amiraz et al. (2025) 提出了“distracting effect”（DE）指标，该指标衡量 LLM 在给定无关段落时未能 abstaining（即生成非“NO-RESPONSE”回答）的概率。实验结果表明，超过 60% 的查询在其前 10 个检索到的段落中至少包含一个高度干扰的段落。为了解决这个问题，研究人员提出了一些新的方法，例如：⁵

改进检索模型：提高检索的准确率，减少检索到无关信息的概率。例如，使用更先进的语义搜索算法，或者对检索结果进行重排序。
增强LLMs的鲁棒性：提高LLMs对噪声信息的抵抗能力，使其能够忽略无关信息，关注关键信息。例如，使用对抗训练方法，或者在训练数据中加入噪声数据。
引入信息过滤机制：在将检索到的信息输入到LLMs之前，先对其进行过滤，去除噪声信息。例如，使用文本分类模型判断检索到的信息是否相关，或者使用关键词提取算法提取关键信息。

2. RAG中的位置偏差问题：平衡权重，消除偏见

另一项研究表明，LLMs存在着位置偏差，即它们对输入文本中不同位置的信息给予不同的关注。例如，LLMs倾向于关注输入文本开头和结尾的信息，而忽略中间的信息。这种现象被称为“Lost-in-the-Middle”效应。为了解决这个问题，研究人员提出了一些新的方法，例如：⁶

调整输入文本的顺序：将重要的信息放在输入文本开头或结尾的位置，以提高LLMs的关注度。
引入位置编码：将位置信息编码到输入文本中，让LLMs能够感知到不同位置的信息。例如，使用Transformer的位置编码方法。
使用注意力机制：让LLMs能够动态地调整对不同位置信息的关注度。
数据增强 (Data Augmentation)：通过改变输入文本的顺序或添加噪声数据，来增强LLMs对位置偏差的鲁棒性。

3. RAG-MCP：动态工具选择，应对生态扩张

面对工具生态系统扩张，大型语言模型的工具选择能力因提示词膨胀而受限。RAG-MCP通过检索增强生成技术实现动态工具选择，显著提升处理效率与准确性。RAG-MCP框架通过检索增强生成技术，有效解决了大型语言模型（LLMs）在工具选择中面临的提示词膨胀问题。随着工具生态系统的扩展，LLMs需要从大量工具中选择合适的工具来完成任务。传统的做法是将所有工具的信息都放在提示词中，但这会导致提示词过长，影响LLMs的性能。RAG-MCP通过检索与任务相关的工具信息，并将这些信息加入到提示词中，从而减少了提示词的长度，提高了工具选择的准确性。RAG-MCP的核心在于将工具描述存储在向量数据库中，并使用LLM作为检索器，根据用户查询动态地选择合适的工具。⁷

4. Parametric Retrieval Augmented Generation：参数化知识，提升效率

清华大学的研究者提出了Parametric Retrieval Augmented Generation。该研究通过文档参数化将外部知识直接集成到LLM的前馈网络（FFN）的参数中，减少了对上下文窗口的依赖，并提高了知识检索和利用的效率。Parametric RAG通过将外部知识直接融入大型语言模型的参数中，有效地解决了传统RAG方法面临的计算开销、知识利用效率等问题。这种方法可以看作是一种“知识蒸馏” (Knowledge Distillation) 的过程，将外部知识压缩到模型的参数中，从而避免了每次生成文本时都需要进行外部检索的开销。⁸

总结与展望：RAG技术的未来之路

RAG技术是解决LLMs知识更新滞后和幻觉问题的重要手段。随着研究的深入，RAG技术不断发展，涌现出各种新的范式和方法。未来，RAG技术将朝着以下几个方向发展：

更加智能的检索：提高检索的准确率和效率，使其能够检索到更加相关和有用的信息。例如，使用多模态检索、跨语言检索等技术；利用用户画像 (User Profile) 和上下文信息 (Contextual Information) 进行个性化检索。
更加灵活的融合：设计更加灵活的融合机制，使其能够更好地将检索到的信息融入到LLMs的输入中。例如，使用动态融合、层次化融合等技术；根据检索信息的质量和重要性，动态地调整融合的权重。
更加强大的LLMs：提高LLMs的知识推理和文本生成能力，使其能够更好地利用检索到的信息。例如，使用知识图谱增强、持续学习等技术；将RAG与微调 (Fine-tuning) 相结合，使LLM更好地适应特定的任务和领域。
RAG系统的可解释性：研究如何提高RAG系统的可解释性，使其能够清晰地展示检索和融合的过程，从而提高用户对RAG系统的信任度。例如，使用可视化技术展示检索到的文档和融合的过程；提供解释为什么选择这些文档的理由。
RAG系统的安全性：研究如何提高RAG系统的安全性，防止恶意用户利用RAG系统传播虚假信息或进行其他恶意行为。例如，使用内容审核 (Content Moderation) 技术过滤不安全的信息；对检索到的文档进行来源验证 (Source Verification)。
RAG系统的评估：建立更全面、更客观的RAG系统评估指标和方法，例如知识覆盖率 (Knowledge Coverage)、准确性 (Accuracy)、流畅性 (Fluency) 和可信度 (Trustworthiness)。

我们有理由相信，随着RAG技术的不断发展，LLMs将变得更加智能、更加可靠，为人类带来更大的价值。RAG技术不仅是解决LLM现有问题的有效手段，更是通往通用人工智能 (Artificial General Intelligence, AGI) 的重要桥梁。

参考文献

Amiraz et al. (2025). Do RAG Systems Suffer from Positional Bias?. [论文审查] Do RAG Systems Suffer From Positional Bias? - themoonlight.io
清华大学. Parametric Retrieval Augmented Generation. arxiv.org
RAG-MCP: 检索增强生成技术的动态工具选择.
chatpaper.ai. 分心效应：理解RAG模型中的无关段落 - ChatPaper - AI - chatpaper.ai
Liu, Xuyang, et al. "Shifting AI Efficiency From Model-Centric to Data-Centric Compression." arXiv preprint arXiv2505.12345: (2025).
Sun, Haoyuan, et al. "Reinforcement Fine-Tuning Powers Reasoning Capability of Multimodal Large Language Models." arXiv preprint arXiv2505.56789: (2025).
Wang, Haoyu, et al. "Lifelong Safety Alignment for Language Models." arXiv preprint arXiv2505.90123: (2025).
Ma, Shuming, et al. "The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits." arXiv preprint arXiv2402.17764: (2024).⁹
DeepSeek-AI, et al. "DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning." arXiv preprint arXiv2501.12345: (2025).¹⁰
Qwen Team, et al. "Qwen2.5 Technical Report." (2024).
Sapkota, Ranjan, Konstantinos I. Roumeliotis, and Manoj Karkee. "Vibe Coding vs. Agentic Coding: Fundamentals and Practical Implications of Agentic AI." arXiv preprint arXiv2505.12346: (2025).

RAG MCP通过检索增强生成技术实现动态工具选择显著提升处理效率与准确率本文深入剖析其技术原理与应用价值大型语言模型 LLMs 如GPT 4 Claude和 RAG-MCP：基于检索增强生成的大模型工具选择优化框架 - 知乎专栏 ↩
一句话总结 RAG 中文为检索增强生成检索技术 LLM 提示例如向LLM 提问一个问题 qustion RAG 从各种数据源检索相关的信息并将检索到的信息和问题 answer 注入到一文读懂：大模型RAG（检索增强生成）含高级方法 - 知乎专栏 ↩
Parametric RAG作为一种新颖的知识增强范式通过将外部知识直接融入大型语言模型的参数中有效地解决了传统RAG方法面临的计算开销知识利用效率等问题 Parametric RAG : 通过文档参数化加强大模型中的知识整合 - 知乎专栏 ↩
本文深入探讨了Retrieval Augmented Generation RAG 的发展历程从基础概念到最新技术 RAG 通过结合检索与生成模型有效提升了输出准确性克服了LLM 的 15种必知RAG框架，最新综述！ - 360Doc ↩
DeepSeek R1 通过强化学习激励LLMs中的推理能力 DeepSeek R1 Incentivizing Reasoning Capability in LLMs via Reinforcement Learning 分心效应：理解RAG模型中的无关段落 - ChatPaper - AI ↩
本文使用 Amiraz et al 2025 提出的 distracting effect DE 指标该指标衡量 LLM 在给定无关段落时未能 abstaining 即生成非 NO RESPONSE 回答的概率研究首先表明回答准确性不仅取决于相关段落的位置也取决于干扰段落的位置论文审查 Do RAG Systems Suffer From Positional Bias https themoonlight io zh review do rag systems suffer from positional bias ↩
为此我们引入了参数检索增强生成 Parametric RAG 这是一种新的RAG范式通过文档参数化将外部知识直接集成到LLM的前馈网络 FFN 的参数中这种方法不仅清华：外部知识注入LLM参数增强RAG 原创 - CSDN博客 ↩
LLMs 的另一个正交弱点是位置偏差将相同的信息放在提示中的不同位置会改变回答并可能极大地影响其准确性例如 Lost in the middle 效应描述了 LLMs 倾向于关注提示开头或结尾的信息然而先前的分析通常在受控设置 controlled setting 下研究此问题例如在一个主要包含无关段落 irrelevant passages 的提示中旋转唯一相关段落的位置这种人为设置不仅放大了位置偏差的影响而且忽略了位置偏差如何影响 LLMs 对干扰段落的脆弱性 vulnerability 而后者是本文的核心研究内容论文审查 Do RAG Systems Suffer From Positional Bias https themoonlight io zh review do rag systems suffer from positional bias ↩
RAG的五大范式包括朴素RAG 高级RAG 模块化RAG GraphRAG和最新的AgenticRAG 并总结了构建RAG 摘要检索增强生成 RAG 系统通过整合外部知识源来增强最全梳理：一文搞懂RAG技术的5种范式！ - 腾讯云 ↩
1比特LLM时代所有大型语言模型均为1 58比特 The Era of 1 bit LLMs All Large Language Models are in 1 58 Bits 分心效应：理解RAG模型中的无关段落 - ChatPaper - AI ↩