5.2.1 评估指标:Tokens Per Second (TPS)


文档摘要

5.2.1 评估指标:Tokens Per Second (TPS) 5.2.1 评估指标:Tokens Per Second(TPS)——从采样边界到硬件感知的实时吞吐建模实践 你有没有在深夜调试一个刚部署的 LLM 推理服务时,盯着 Prometheus 面板上那条忽高忽低、像心电图般跳动的 曲线发呆?它标称“峰值 1850 TPS”,实测却卡在 427;你改了 ,曲线没变平,反而开始抖动;你加了 ,首 token 延迟降了 37ms,TPS 却跌了 11%……那一刻,TPS 不再是一个冷冰冰的 benchmark 数字,而是一面棱镜——折射出模型结构、KV 缓存管理、CUDA 流调度、PCIe 带宽争用、甚至 Linux cgroup CPU quota 设置的每一处微小偏差。


发布者: 作者: 转发
评论区 (0)
U