1.2.2.1 系统可观测性 1.2.2.1 系统可观测性:不是“加监控”,而是让系统自己开口说话 凌晨两点十七分,告警钉钉弹窗第13次震动—— 的 P99 延迟从 86ms 飙升至 2.4s,错误率同步突破 17%。SRE 小张揉着发红的眼睛,翻遍 Grafana 面板:CPU 正常、内存平稳、GC 次数无异常、K8s Pod Ready 状态全绿……所有“健康指标”都在微笑,而用户正在流失。他切到日志系统,grep ,翻了 47 页,终于在一条被截断的 TRACE 日志末尾瞥见半句:“ ”。可 payment-gateway 自己的监控里,QPS 平稳、延迟曲线如湖面般平静。 这不是故障,这是失语症——系统在剧烈抽搐,却只向你展示一张精心修饰的体检报告。