4.2.1.2 Pod级:HPA v2支持自定义指标(如Kafka消费延迟、Redis队列长度) 我们来直面一个让无数TKE运维工程师在凌晨三点盯着Prometheus面板反复刷新、在HPA事件里看到 却无从下手的真相: Kafka消费延迟(Lag)不是“指标”,而是“时间陷阱”——它不随Pod数量线性衰减,却常被当作线性信号喂给HPA。 这不是理论推演,而是一次真实压测中,某金融级实时风控服务在TKE集群里发生的“弹性幻觉”: HPA基于 自定义指标触发扩容,从2个Pod扩到16个; 扩容后3分钟内,Lag非但未下降,反而跳涨47%; 日志里满屏 ;