5.1.3 SLA/SLO 指标定义与监控维度(TPS、响应时间、错误率、资源利用率) 在分布式系统的世界里,SLA 和 SLO 不是写在合同里的漂亮话,也不是监控大屏上一闪而过的数字——它们是系统心跳的节律、是服务边界的刻度、是工程师深夜收到告警时第一眼要确认的“生命体征”。当业务方问:“我们的支付接口能扛住双十一吗?”真正决定答案的,不是压测报告里那行加粗的“峰值TPS=12,843”,而是我们是否明确定义了 SLO 的数学边界、是否在毫秒级粒度上持续观测响应时间分布、是否将错误率拆解到每个HTTP状态码与gRPC错误码的组合维度、是否让资源利用率指标真正反映服务瓶颈而非宿主幻觉。 这正是 5.1.3 的核心:把抽象的服务承诺,翻译成可采集、可聚合、可判定、可归因的技术契约。