2.3.2.2 RoCE (RDMA over Converged Ethernet) 当 RoCE 流量在 25G 网络上突然“静音”:一个被忽略的 PFC 队列映射陷阱与三行 ethtool 命令的救赎 凌晨两点十七分,监控告警第三次弹窗——某 AI 训练集群的 AllReduce 吞吐骤降 68%,NCCL 报错 ,而 显示所有 RoCE 端口 Link Up、Port Active、SM 已发现。没有丢包,没有 CRC 错误, 却赫然躺着一串不断跳涨的 计数。 这不是拥塞——这是窒息。 不是丢包——是等待。 不是硬件故障——是配置在说谎。 这就是我们今天要拆解的 RoCE 实战切口:PFC(Priority Flow Control)队列映射错位导致的静默级流控死锁。