6.1 故障预防机制 在可靠性工程的漫长征途上,我们常把“故障预防”挂在嘴边,却很少真正叩问:预防,究竟是对未知的祈祷,还是对已知的精密计算? 当线上服务在凌晨三点因一个未被压测覆盖的慢查询雪崩式降级,当订单履约链路因下游依赖的瞬时IO抖动而批量超时,当混沌实验中Pod被驱逐后Sidecar未能在300ms内完成健康检查——这些不是事故的序章,而是预防机制早已失效的判决书。 故障预防,从来不是靠日志告警的被动响应,也不是靠SLO达成率的事后粉饰。它是一套可编程、可观测、可验证的主动防御系统。其核心不在“防”,而在“预”:预先建模故障传播路径,预先注入可控扰动,预先校准熔断边界,预先固化恢复节奏。 本节不谈理念,只讲实现;不列工具,只拆代码;不画蓝图,只交配置——带你亲手把“6.