3.1.2.1 高基数问题处理


文档摘要

3.1.2.1 高基数问题处理 当你的Prometheus告警突然哑火:一个高基数Label引发的雪崩式OOM故障复盘 凌晨两点十七分,生产环境的告警平台静默了。 不是告警收敛,不是策略关闭,而是整个Alertmanager进程在毫无征兆的情况下被Linux OOM Killer强制终止——日志里只留下一行冰冷的 。更讽刺的是,就在三分钟前,它还在疯狂推送“Prometheus内存使用率 > 95%”的自身告警。 这不是传说中的“用监控系统监控监控系统”的黑色幽默。这是真实发生在某金融级实时风控中台的一次典型高基数灾难。而罪魁祸首,藏在一个看似无害的Label里: 。 你可能已经猜到了——这不是一个ID,这是一个UUID。而我们的系统,每秒产生23,741个携带该Label的指标样本。


发布者: 作者: 转发
评论区 (0)
U