02-第二章-部署与推理

文档摘要

02-�ڶ��-��

02-�ڶ��-��

大模型的latency（延迟）和throughput（吞吐量）有什么区别

如何评判大模型的输出速度？首Token延迟和其余Token延迟有什么不同？

评论区 (0)

U

0/500