6.2.1.1 gRPC 与 RESTful 接口 当 gRPC 的流式响应在 OVMS 里“卡住”:一个被忽略的 HTTP/2 流控窗口与模型推理吞吐量的真实博弈 你有没有遇到过这样的场景? 在 OpenVINO Model Server(OVMS)上部署了一个支持 流式输出的语音转文本模型(比如 Whisper 的 streaming variant),前端用 gRPC 客户端调用 接口,明明模型推理耗时稳定在 80ms,但客户端却要等整整 1.2 秒才收到第一条响应 chunk?日志里没有报错, 看到请求已进入 pipeline, 显示 CPU 利用率波澜不惊, 抓包却显示——前 1100 毫秒,wire 上连一个 帧都没有。 这不是网络延迟。不是模型慢。甚至不是代码 bug。