7.1.3 结果不一致或采样丢失原因分析 在可观测性工程的实践前线,我见过太多这样的深夜告警:同一组微服务在 A 集群中上报的 P95 延迟是 127ms,在 B 集群却是 43ms;Prometheus 查询某指标过去 1 小时的 ,两次执行结果偏差达 38%;更令人窒息的是——某关键链路的 Trace ID 在 Jaeger 中“凭空消失”,Span 数量从预期的 17 个骤减为 9 个,且缺失的 Span 全部集中在中间网关层。这些不是偶发抖动,而是系统性采样失真,是埋点与采集链路中那些被忽略的时序裂缝、缓冲陷阱与语义断层在集体发声。