大模型的latency(延迟)和throughput(吞吐量)有什么区别


文档摘要

大模型的latency(延迟)和throughput(吞吐量)有什么区别? 导入 为了快速应用大模型,我们需要采购商业大模型。采购前,对接销售时,我们描述了我们的场景和需求: Q:我们的prompts token数量在1500-2000之间,completion token数量在500左右。这种情况下,prefilling多久?每个token输出是多久? 销售回复:标准3500 token Input,首包吐出来小于1秒;throughput 300token/s. 你是否看出来答非所问了? 问的和latency相关,回答的是throughput。那这两个词有什么区别?导致连这个领域的销售都会搞混?


发布者: 作者: 转发
评论区 (0)
U