3.1.1.1 Metric 与 Tags


文档摘要

3.1.1.1 Metric 与 Tags 3.1.1.1 Metric 与 Tags:当“每秒请求数”突然归零——一次由 tag cardinality 爆炸引发的监控失明事故复盘 凌晨两点十七分,告警静默。 不是告警太多被抑制,也不是规则被误关——是整个指标系统里, 这条最基础的黄金指标,在 Prometheus 的 页面上赫然显示为 “0/0 samples”;在 Grafana 面板中,它不是断线、不是空值、不是 ,而是彻底消失——像被橡皮擦从时序宇宙里精准抹去。而与此同时,线上用户投诉激增:“下单按钮点了没反应”“支付页一直转圈”。SRE 小组紧急拉起会议,三分钟内确认:服务进程活着,日志有流量,链路追踪(Jaeger)显示请求正常流转,但——监控看不见任何请求。 这不是玄学。


发布者: 作者: 转发
评论区 (0)
U