2.1.4 基础设施层:计算-存储-网络三维弹性底座(CVM/CVM+GPU + CBS + VPC+ENI+智能网卡) 当智能网卡撞上CBS高IO抖动:一次在VPC ENI多队列与CBS直通路径间的“心跳同步”修复实录 凌晨两点十七分,监控告警第三次亮起——某AI推理服务集群的P99延迟从82ms骤升至1.7s,GPU利用率稳定在93%,但NVMe写入吞吐却像被掐住喉咙般跌落40%。SRE值班同事甩来一句:“CBS挂了?还是CVM崩了?” 我盯着Prometheus里那条锯齿状跳动的 曲线,又扫了眼同一时间点ENI的 与 之间诡异的相位差——不是存储崩了,是网络和存储在“抢心跳”。 这不是故障,是失同步。