7.3.1 Diagnostic 诊断信息链 在分布式系统演进的漫长征途里,我们曾无数次目睹这样的场景:一个微服务接口响应时间突然从 80ms 跳升至 2.3s,监控大盘上 CPU 使用率纹丝不动,GC 日志平静如常,链路追踪里 span 标签却在某个 调用处凭空“卡住”了整整 2187ms——而该数据库连接池配置明明是 、 、 。运维同学紧急扩容实例,SRE 团队重启网关,DBA 检查慢查询日志……三小时后,问题自行消失。没人知道它为何而来,亦不知它因何而去。 这并非故障,而是诊断信息的结构性失语——我们拥有海量指标(metrics)、海量日志(logs)、海量追踪(traces),但它们彼此割裂、时序错位、语义模糊、上下文缺失。