7.2.2.2 实时性与规模 7.2.2.2 实时性与规模:当 SaltStack 的 在千节点集群中突然“失聪”——一次基于 SSH 连接复用与状态缓存穿透的深度调优实战 凌晨两点十七分,告警钉钉群炸开一条红色消息: 这不是第一次。过去三个月,运维团队已在 Terraform 和 SaltStack 之间反复横跳:Terraform 负责云资源编排,SaltStack 负责配置收敛;但每当集群规模越过 600 节点,SaltStack 的“实时性幻觉”便开始崩塌—— 命令返回成功,而真实世界里,有 12% 的节点仍在运行旧版 Nginx 配置; 显示 all-up, 却在 93 台机器上超时;更讽刺的是, 在无 minion 环境下本该是“兜底方案”,结果成了最不稳定的环节。