6.1.2 混沌工程(TCM):网络延迟注入、Pod强制驱逐、CBS磁盘IO限流等故障演练 6.1.2 混沌工程(TCM)实战手记:当CBS磁盘IO限流遇上Kubernetes StatefulSet的“静默卡死” 凌晨两点十七分,告警钉钉弹窗炸开——核心订单服务P99延迟从83ms陡增至4.2s,错误率跳升至7.3%,而监控面板上CPU、内存、网络带宽一切“健康”。SRE值班工程师老陈没点开Prometheus,先敲了一行命令: 输出里, 稳定在99.8%, 飙升至1240ms, 和 却不足正常值的1/5。 这不是负载高——这是IO被掐住了脖子,还一声不吭地喘着气。 这就是我们今天要拆解的混沌切口:CBS磁盘IO限流在StatefulSet场景下的非对称失效陷阱。