Zero-OverheadBatchScheduler


文档摘要

Zero-Overhead Batch Scheduler 关于作者:我是王冠骅,电子科技大学计算机本硕研二(26毕业),目前在找推理加速方向的实习,欢迎联系我!281484683@qq.com 本文参考 https://github.com/sgl-project/sgl-learning-materials/blob/main/slides/lmsys1stmeetupsglang.pdf 引言 传统的推理系统中,CPU 的调度和 GPU 计算是串行执行的。两者需要互相等待才可以继续执行,这样导致了 GPU 会有很长无谓的 Bubble,如下图所示: image-20250320212055165 未经优化的引擎可能会将一半的时间花费到 CPU 调度上,下图是 vLLM 0.5.


发布者: 作者: 转发
评论区 (0)
U