2.1.1.2 超时与重试机制 2.1.1.2 超时与重试机制:一次支付网关雪崩事故后的“熔断式重试”实践 凌晨两点十七分,监控告警像一把冰锥扎进值班工程师的太阳穴——支付网关调用量暴跌 83%,下游银行通道成功率从 99.97% 断崖式滑落至 41.2%,而上游订单服务的线程池活跃数已飙至 98%,堆栈日志里密密麻麻堆叠着 和 。这不是压测,不是演练,是真实世界的支付洪峰撞上了超时配置的豆腐墙。 我们花了 47 分钟定位问题。最终发现,罪魁祸首不是网络抖动,不是银行接口宕机,甚至不是代码 Bug——而是那一行被所有人忽略、写在 最底部、用注释轻轻带过的配置: 它安静得像呼吸,却在每笔支付请求中埋下三秒的倒计时炸弹。