4.2.1.2 Worker 自动伸缩策略 4.2.1.2 Worker 自动伸缩策略:不是“越多越好”,而是“恰在刀刃上”——一次因指标失焦导致的雪崩式扩容事故复盘与精准弹性控制实践 凌晨两点十七分,监控告警像被掐住喉咙的鸟,断续嘶鸣。Kubernetes 集群中, 的 Pod 数量在 90 秒内从 12 个暴涨至 217 个;Prometheus 报出 的 99 分位值并未突破 65%,但 的增量曲线却陡峭如断崖——217 个 Worker 全部 Running,却有 183 个卡在 状态,日志里反复刷着同一行: 这不是扩容,是自残。 我们曾以为自动伸缩(Auto-scaling)是云原生系统的呼吸节奏——负载升,Worker 生;负载落,Worker 归。