2.3.1.1 FCFS 与优先级调度


文档摘要

2.3.1.1 FCFS 与优先级调度 当优先级调度撞上显存碎片:一个被忽略的 陷阱与 FCFS 调度器的“伪公平”真相 你有没有遇到过这样的场景? 模型服务上线后,QPS 稳定在 120,P99 延迟 380ms——看起来一切正常。 直到某天凌晨三点,运营同事紧急 Slack:“大促流量来了,但新用户请求卡在队列里 17 秒才开始推理!” 日志里没有 OOM,GPU 利用率只有 62%, 显示显存占用 94%,但 却只报出 5.2GB。 更诡异的是:重启服务进程后,问题瞬间消失,P99 回到 320ms,持续 4 小时后又缓慢爬升…… 这不是玄学。


发布者: 作者: 转发
评论区 (0)
U