7.2.1 RAG 系统部署 在构建生产级 RAG(Retrieval-Augmented Generation)系统时,我们常陷入一种认知惯性:把 RAG 简单等同于“向量检索 + 大模型生成”的两段式拼接。这种理解就像把一台涡轮增压发动机拆成进气管和排气管分别测试——它能跑,但离真正上路还差整整一个底盘调校、热管理、ECU标定与实时故障容错的工程闭环。 真正的 RAG 部署,不是模型能力的展示秀,而是数据可信性、检索鲁棒性、生成可控性、服务可观测性与运维可演进性五维交织的系统工程。本节不谈概念、不讲愿景,只聚焦你打开终端、敲下 前那最关键的 72 小时:从文档切片策略的数学依据,到重排序器(Reranker)的梯度裁剪技巧;