8.4.2.1 自动重启策略 8.4.2.1 自动重启策略:当“健康检查”沦为仪式感,我们如何让重启真正成为故障的终结者? 凌晨两点十七分,告警钉钉群弹出第7条未读消息:“ 连续3次心跳超时,已触发自动重启”。运维同事顺手点开 Grafana 面板——CPU 98%,内存 RSS 稳定在 3.2GB,但 却在每 10 秒返回一次 。 ——这台服务,正以“活着”的姿态,彻底瘫痪。 这不是虚构场景。它是过去18个月内,我在三家不同规模企业(从日均订单50万的电商中台,到承载千万级IoT设备接入的边缘网关集群)参与故障复盘时,反复撞见的同一堵墙:自动重启策略,正在系统性地失效。它没有修复问题,反而把故障从“瞬时抖动”拖成“雪崩前夜”;它没有缩短MTTR,反而因盲目重启加剧了资源争抢与状态错乱;