4.2.1 TKE集群弹性伸缩: 4.2.1 TKE集群弹性伸缩:当Pending Pod撞上Kafka积压——一次节点扩容与指标驱动伸缩的协同救火实录 凌晨两点十七分,监控告警钉钉群弹出第三条红色消息:“ lag > 120万”。五分钟后,TKE控制台里赫然躺着17个Pending状态的Pod,标签全是 。运维同事甩来一句:“CA没动,HPA也不扩,是不是配置废了?” ——这不是故障演练脚本,是上周三真实发生的生产事件。而真正刺痛我们的,不是告警本身,而是那17个静默悬停的Pod背后,暴露出一个被长期忽略的断层:节点资源供给能力(Cluster Autoscaler)与业务负载感知能力(HPA v2)之间,根本不在同一套语义体系里对话。