6.2.1.1 Scheduler 心跳间隔优化


文档摘要

6.2.1.1 Scheduler 心跳间隔优化 6.2.1.1 Scheduler 心跳间隔优化:一次因 延迟引发的集群雪崩,以及我们如何用 救回 97% 的任务吞吐 凌晨两点十七分,告警钉钉群炸开第三条红色高亮消息: 【K8s Cluster-Prod】 ReadyProbe 失败 ×12,连续 4 分钟未上报心跳; Pod 数突破 14,823; 突降至 11.3%; 跃升至 8.4s —— 超出 SLA 阈值 16.8 倍。 这不是压力测试。这是真实生产环境——一个承载着日均 230 万 AI 推理任务、峰值并发超 4.7 万 Pod 的金融级调度集群。而问题的起点,竟藏在一行被所有人忽略的配置里: 没错——就是 。它不是心跳间隔,但它是心跳“重试节奏”的节拍器;


发布者: 作者: 转发
评论区 (0)
U