2.3.2.1 业务必需但非核心 当监控告警开始“说谎”:一个支撑域服务的静默崩溃,如何用一行 定位到数据库连接池耗尽的真相 凌晨两点十七分,你被钉钉消息震醒。 不是核心交易链路崩了,不是支付网关超时,不是风控模型突然拒掉97%的订单——而是「用户头像上传失败」。 页面上那个小小的圆形占位图,固执地显示着灰色的默认图标。运营同学在群里发来一张截图,附言:“今天上午10点起,新注册用户头像全部无法显示,影响品牌感知。” 你揉了揉眼睛,点开告警看板: 的 HTTP 500 错误率从 0.02% 突增至 18.6%; 的 P99 响应时间从 127ms 暴涨至 4.3s; 但它的上游依赖——用户中心( )、对象存储( )、甚至认证服务( )——全绿。