2.3.2.1 InfiniBand 技术栈 2.3.2.1 InfiniBand 技术栈:当 RDMA 通道“沉默”时,别急着换线——一个被忽略的 Subnet Manager 配置陷阱与三步定位法 你有没有经历过这样的凌晨三点? 集群里二十台 GPU 服务器正满负荷跑着 Llama-3-70B 的分布式训练, 日志里却反复刷出 ; 显示所有端口 UP, 显示拓扑连通无环, 却在跨交换机节点间持续丢包; 测试单向带宽跌至 1.2 Gb/s——不到理论值的 5%;运维同事已拆开机柜检查物理链路,光模块温度、RX/TX 光功率全部正常;网络工程师说“链路层没问题”,HPC 工程师说“上层 MPI 没配错”,而你盯着 输出里那一行不起眼的 ,心里发毛:它明明亮着绿灯,为什么状态是 DOWN?