2.3 调度与批处理


文档摘要

2.3 调度与批处理 2.3 调度与批处理:大语言模型服务化中隐秘而关键的“交通管制系统” 当你在终端输入一行提示(prompt),按下回车,不到两秒便收到一段逻辑严密、风格贴切的生成文本——这看似轻盈的一次交互背后,是数十甚至上百个GPU核心在毫秒级时间尺度上被精密编排、动态协同、反复腾挪的结果。它不像传统Web服务那样只需路由请求、查库返回;也不似图像推理那般输入固定、计算封闭。大语言模型的推理,是一场持续演化的状态流:每个请求携带不同的长度、不同的计算密度、不同的生命周期;有的刚启程(预填充阶段),正以千token/s的速度吞下上下文;有的已进入深水区(自回归解码),每步仅产出1个token,却需反复读写KV缓存;


发布者: 作者: 转发
评论区 (0)
U