7.1.1 指标层:Prometheus联邦采集(CVM/容器/中间件/存储)+ Grafana多维下钻看板 7.1.1 指标层实战手记:当Prometheus联邦采集遭遇“指标雪崩”——一次CVM+容器混合场景下的标签爆炸根治实录 凌晨2:17,告警钉钉群弹出第17条红色消息:“ 内存使用率持续98%超15分钟,OOMKilled重启中”。值班工程师老陈没点开链接,先抓起保温杯灌了口凉茶——这已经是本周第三次。不是CPU打满,不是磁盘爆掉,而是Prometheus在联邦拉取时,把上游23个K8s集群、47台CVM物理机、11套Redis/MySQL/Kafka实例的指标,一股脑儿塞进自己内存里,像往一个漏底的麻袋里倒沙子:越倒越沉,越沉越漏,最后整袋崩裂。 这不是性能瓶颈,是语义失控。