4.2.2.2 Flink, Kafka 4.2.2.2 Flink, Kafka:当 Exactly-Once 遇上跨集群事务——一次生产环境 Kafka 事务超时引发的 Flink Checkpoint 雪崩实录 凌晨两点十七分,监控告警刺破静默——Flink 作业的 checkpoint 完成时间从平均 800ms 突增至 12.7s,失败率飙升至 93%,下游 Kafka topic 的 lag 在 3 分钟内突破 230 万条。值班工程师点开 Flink Web UI,第一眼就盯住了那个刺目的红色指标: 峰值达 11.3s;