5.1.3 SLA/SLO 指标定义与监控维度（TPS、响应时间、错误率、资源利用率）

文档摘要

5.1.3 SLA/SLO 指标定义与监控维度（TPS、响应时间、错误率、资源利用率）在分布式系统的世界里，SLA 和 SLO 不是写在合同里的漂亮话，也不是监控大屏上一闪而过的数字——它们是系统心跳的节律、是服务边界的刻度、是工程师深夜收到告警时第一眼要确认的“生命体征”。当业务方问：“我们的支付接口能扛住双十一吗？”真正决定答案的，不是压测报告里那行加粗的“峰值TPS=12,843”，而是我们是否明确定义了 SLO 的数学边界、是否在毫秒级粒度上持续观测响应时间分布、是否将错误率拆解到每个HTTP状态码与gRPC错误码的组合维度、是否让资源利用率指标真正反映服务瓶颈而非宿主幻觉。这正是 5.1.3 的核心：把抽象的服务承诺，翻译成可采集、可聚合、可判定、可归因的技术契约。