6.5 健康检查、自动恢复与故障自愈能力 6.5 健康检查、自动恢复与故障自愈能力 在分布式系统的世界里,故障不是“是否会发生”的问题,而是“何时发生”的问题。Apache Pulsar 作为现代云原生消息平台的代表,其架构设计天然拥抱了这一现实——它不试图避免故障,而是构建了一套强大而精细的健康检查、自动恢复与故障自愈机制,使得系统在面对节点宕机、网络分区、磁盘损坏甚至区域性灾难时,依然能够维持高可用性与数据一致性。这种能力并非偶然堆砌的功能模块,而是根植于 Pulsar 分层架构(Broker 无状态 + BookKeeper 存储有状态)与多副本共识协议之中的系统性工程哲学。 那么,Pulsar 究竟是如何将“故障”这一混沌变量转化为可预测、可隔离、可修复的常规操作?