8.4.2 故障恢复预案 在生产环境里,故障从不预约,却总爱挑凌晨三点、大促前夜、或是你刚提交完年度 OKR 的那一刻悄然降临。我们写下的每一行健康检查逻辑、每一条告警阈值、每一次重启退避策略,都不是为了应付文档评审,而是为那个“系统突然沉默”的瞬间,预留一道可被信任的呼吸孔——它不保证永生,但必须足够快、足够稳、足够可推演。 8.4.2 故障恢复预案,不是应急预案的装饰性附件,而是整个稳定性体系中最锋利的那把手术刀:它不负责诊断病因,但必须在心跳停止的 300 毫秒内完成插管、起搏、电击三连击;它不参与容量规划,却要在 CPU 突然飙至 98% 的第 7 秒触发熔断与降级;它不定义业务语义,却要精确识别“订单创建超时”是网络抖动、DB 锁争用,还是下游支付网关已整体失联。