4.3.2 性能指标(Throughput、Latency、TTFT) 在分布式推理服务的监控体系中,性能指标从来不是仪表盘上几条跳动的曲线——它们是系统脉搏的具象化表达,是请求在千级GPU卡间穿行时留下的物理痕迹,是模型从加载权重到吐出第一个token之间那毫秒级的沉默里所承载的全部工程重量。当我们谈论 Throughput、Latency 和 TTFT(Time to First Token),我们真正讨论的,是一套精密协同的观测契约:它要求采集端足够轻量不扰动调度,计算端足够严谨不丢失语义,聚合端足够灵活可支撑多维下钻,而告警端则必须穿透统计噪声直指根因。