8.4.2.2 报警阈值设定 8.4.2.2 报警阈值设定:别让“95% CPU 使用率”再骗你一次——一个被低估的动态基线建模实践 凌晨两点十七分,告警群炸了。 三条红色消息几乎同时弹出: 值班工程师老陈揉了揉眼睛,手指在键盘上悬停三秒——这台机器他太熟了。它部署在华东区 AZ-B 可用区,承载着支付链路的前置鉴权流量,过去三个月里,它每天凌晨 2:00–2:30 都会稳定飙到 96%±0.8%,而 GC 时间也总在 820–860ms 区间小幅振荡。监控面板上那条红色阈值线,像一根绷紧却从未断裂的琴弦,日复一日地被拨动,却从不真正报警。 这一次,它又响了。 但这一次,它不该响。