8.1.2 未来功能规划 8.1.2 未来功能规划:从蓝图到产线的工程化落地路径 你有没有在凌晨三点盯着 CI 流水线里那个反复失败的 用例,一边重跑一边想:我们真的准备好把向量检索从“能用”推向“可信”了吗?不是演示时调个 API 就弹出漂亮结果的那种“能用”,而是当金融风控模型依赖它做实时欺诈链路判定、当医疗知识图谱靠它定位《NCCN指南》第4.7节附录B的修订依据时,依然能在 P99 延迟 5.0 的高信息量词,则 ;否则降为 。这个策略使 QPS 提升 2.1 倍,同时保持 Recall@100 下降 300ms。 根因:CUDA Context 初始化竞争——首个请求触发 ,阻塞后续请求。 解法:在服务启动时预热: 并设置 仅用于 debug,上线时关闭。