6.3.1.2 指标采集频率 6.3.1.2 指标采集频率:当“每秒一次”成为压垮监控系统的最后一根稻草 凌晨两点十七分,告警钉钉群炸开第三条红色消息:“Prometheus scrape timeout > 95%”,紧接着是 Grafana 面板上一整排灰掉的图表——CPU、内存、GC 次数、HTTP 请求数,全成了问号。值班工程师老陈没点开日志,先抄起 ,发现 的 CPU 使用率卡在 98.7%,而它隔壁的 正在缓慢重启。他敲下 ,一行字刺眼地跳出来: ——没错,是 秒。 不是 ,不是 ,更不是业界默认的 。是 1 秒。一个看似激进、实则危险的数字,正以毫秒级精度,把整个可观测性链路拖向雪崩边缘。 这不是虚构的故障剧本。