2.3.1 网络拓扑结构 (Mesh, Torus, Fat-Tree, Dragonfly)


文档摘要

2.3.1 网络拓扑结构 (Mesh, Torus, Fat-Tree, Dragonfly) 2.3.1 网络拓扑结构:Dragonfly 的“跨组链路映射失配”故障——一次让三台胖树交换机集体哑火的深夜排障实录 凌晨2:17,监控告警弹窗在终端右下角无声炸开: 这不是模拟演练。这是某国家级超算中心A100集群上线第七天的真实日志。集群采用Dragonfly拓扑,256个GPU节点分属16个组(Group),每组16节点;组内通过全连接Fat-Tree(实际为8端口IB交换机级联)实现低延迟;组间则依赖16条双向光缆——每条对应一个“全局链路”(Global Channel),由专用Dragonfly路由器(我们叫它“Dragon Router”)统一调度。


发布者: 作者: 转发
评论区 (0)
U