7.4.1 QPS、Latency、Recall@K


文档摘要

7.4.1 QPS、Latency、Recall@K 在搜索引擎、推荐系统、向量数据库乃至大模型RAG服务的工程落地现场,我们常听到一句近乎本能的追问:“这个服务到底扛不扛得住?”——它不像学术论文里那般优雅地谈论“收敛性”或“渐近复杂度”,而是一种带着焦灼感的、沾着咖啡渍和深夜日志味儿的质问。QPS、Latency、Recall@K,这三个看似简单的缩写,正是回答这个问题时最锋利的三把解剖刀。它们不是仪表盘上跳动的装饰数字,而是系统真实心跳的波形图、是用户指尖悬停0.3秒后是否划走的判决书、是业务增长曲线能否继续上扬的隐性闸门。 可遗憾的是,太多团队把它们当作黑箱指标:用wrk压一压,看个平均延迟;跑个离线脚本算个Recall@10;再配上一句“QPS峰值5000”,就匆匆结案。


发布者: 作者: 转发
评论区 (0)
U