6.2.1.1 JobManager 元数据 6.2.1.1 JobManager 元数据:ZooKeeper 存储层的“心跳断点”——一次因 配置失配引发的元数据静默丢失事故复盘 凌晨两点十七分,监控告警无声熄灭。 不是因为故障修复了,而是因为 Flink 作业彻底“失联”——JobManager 进程仍在运行,日志里没有 ERROR,Checkpoint 持续成功落盘,TaskManager 心跳照常上报,但 Web UI 上所有作业状态冻结在 ,且再也无法提交新作业。更诡异的是:重启 JobManager 后,它声称“无任何历史作业”,仿佛集群被格式化过。 这不是幻觉。这是我们在某金融实时风控平台上线第三周遭遇的真实现场。