2.3.2 核心技术与协议 2.3.2 核心技术与协议:当 RDMA 流量撞上以太网拥塞——一个 RoCEv2 亚微秒级丢包的根因定位与零拷贝保活实战手记 凌晨三点十七分,监控告警第三次弹窗:GPU 训练集群中某台节点的 AllReduce 吞吐骤降 68%,NCCL 报错 ;同一时刻, 显示端口状态正常, 指向链路无误,而 却悄悄浮出一行刺眼数字: 。这不是网络工程师熟悉的“慢启动失败”,也不是驱动加载异常——这是 RDMA 流量在 converged ethernet 上被无声绞杀的典型切片。 我们不是在调试网络,而是在抢救计算。