3.3.2 Checkpoint 策略 在分布式流处理系统中,Checkpoint 不是“可选项”,而是系统可靠性的生命线。它不是简单的快照保存,而是一场精密编排的、横跨计算节点、网络链路与存储介质的协同交响——每一次成功的 Checkpoint,都是对状态一致性、容错鲁棒性与性能边界的三重叩问。当我们把目光聚焦于 3.3.2 Checkpoint 策略,我们面对的已不再是“要不要做 Checkpoint”的哲学命题,而是“如何在毫秒级延迟约束下,让 TB 级状态以 ACID 语义完成原子持久化”这一工程极限挑战。 你是否曾调试过一个 Flink 作业,在恢复后发现窗口聚合结果偏移了一条记录?是否在 Kafka Source 消费位点与算子状态之间反复校验却仍无法复现数据重复?