6.2 高可用(HA)配置 第六章:部署运维与高可用 6.2 高可用(HA)配置:在流式计算的永续心跳中构筑韧性基座 当我们在凌晨三点收到一条告警——“JobManager 进程异常退出,Checkpoints 暂停写入,TaskManagers 正陆续失联”——那一刻,真正考验的从来不是Flink作业图是否优雅、状态后端是否高效,而是整个流处理系统的存在性本身:它能否在单点崩塌之后,于毫秒级完成自我重构?能否在ZooKeeper集群短暂抖动时,不丢失哪怕一个事件的时间戳语义?能否在Kubernetes节点大规模驱逐下,让Exactly-Once语义如磐石般岿然不动? 这并非运维事故的被动响应,而是一场面向确定性的主动设计。