5.1.3 异构计算:多显卡并行计算支持 在深度学习训练与科学计算的战场上,单张GPU早已不是性能的终点——而是并行计算拓扑的起点。当你把一张NVIDIA A100插进服务器,你得到的不是一块“加速卡”,而是一扇通往分布式张量空间的门;当你将四块H100以NVLink 4.0全互联方式部署,你构建的不再是一组独立设备,而是一个具备统一地址空间、亚微秒级同步延迟、跨芯片零拷贝内存访问能力的异构计算单元(Heterogeneous Compute Unit, HCU)。这正是5.1.