4.2.1 Chandy-Lamport 算法实现 在分布式流处理系统中,容错不是一道可选题,而是一道生死线。当一个作业持续运行数月、处理 PB 级实时事件、支撑着金融风控的毫秒级决策或电商大促的实时库存扣减时,任何一次未预期的节点宕机、网络分区或状态损坏,都可能演变为资损、超卖、告警风暴,甚至监管问责。此时,“恰好一次”(exactly-once)语义不再是一个学术术语,而是系统可信性的基石——而 Chandy-Lamport 算法,正是这座基石最精巧、最坚韧、也最常被误解的一块。 你或许已经读过教科书里那句经典定义:“Chandy-Lamport 是一种分布式快照算法,用于在无全局时钟前提下捕获一致的全局状态。”但这句话就像告诉你“心脏由心肌构成”一样正确却苍白。