6.2.1 自动恢复:CBS快照回滚(<2分钟)+ CLB健康检查自动摘除异常实例 当快照回滚卡在 117 秒,而 CLB 还在把流量打向一个已 panic 的 Pod:一次真实压测中暴露的“自动恢复”幻觉 凌晨两点十七分,监控告警钉钉群炸开一条红色消息: 这不是演习。这是我们在金融核心链路压测中,第 4 次复现的“伪自愈”现场。 我们曾无比笃信那句写进 SLO 的承诺:“CBS 快照回滚 <2 分钟 + CLB 自动摘除异常实例 = 故障秒级收敛”。可当它真正撞上生产环境里那个被低估了 3 个数量级的细节——快照回滚路径中隐式依赖的 CBS 卷元数据锁争用,以及 CLB 健康检查与容器生命周期之间那 800ms 的语义鸿沟——所有自动化脚本都安静了下来,像一排按了暂停键的机械臂。