9.3批处理


文档摘要

9.3 批处理 同样的例子,面对多个提示词输入时: 涉及在实际执行推理操作之前,我们希望将多个查询整合成一个大批次的请求统一处理,这样就提升了系统整体的处理能力(吞吐量)。 静态批处理 (Static Batching) 一个原始的 batching 方式如下图所示: 一个 batch 由 S1-4 这四个请求组成,这里上下文长度是 8,那四个请求一共分配 $4 \times 8 = 32$ 块内存, 可以看到,序列3在第二次迭代后就完成了,但由于静态批处理的限制,GPU 需要等到所有序列都完成后才能继续处理。持续解码会让 latency 低一点,但显然会影响在线部署中的关键指标 TTFT 和吞吐量。


发布者: 作者: 转发
评论区 (0)
U