第九章：一致性与共识

文档摘要

第九章：一致性与共识好死还是赖活着？ —— Jay Kreps, 关于 Kafka 与 Jepsen 的若干笔记 (2013) [TOC] 正如第八章所讨论的，分布式系统中的许多事情可能会出错。处理这种故障的最简单方法是简单地让整个服务失效，并向用户显示错误消息。如果无法接受这个解决方案，我们就需要找到容错的方法 —— 即使某些内部组件出现故障，服务也能正常运行。在本章中，我们将讨论构建容错分布式系统的算法和协议的一些例子。我们将假设第八章的所有问题都可能发生：网络中的数据包可能会丢失、重新排序、重复推送或任意延迟；时钟只是尽其所能地近似；且节点可以暂停（例如，由于垃圾收集）或随时崩溃。构建容错系统的最好方法，是找到一些带有实用保证的通用抽象，实现一次，然后让应用依赖这些保证。