1.2.2 并行性能定律 1.2.2 并行性能定律:当“加核”不再等于“加速”——一个被忽略的存储带宽陷阱与三定律协同诊断法 凌晨两点十七分,生产环境告警灯又亮了。 不是CPU打满,不是内存溢出,不是GC风暴——而是集群里32台GPU服务器,每台插着8张A100,总显存带宽理论峰值超15 TB/s,却在运行一个看似简单的图像特征聚合任务时,从4卡扩展到32卡,端到端耗时反而从8.3秒涨到了11.2秒。 运维同事发来截图, 显示:GPU利用率稳定在62%~68%,但 持续飙红, 曲线却平得像冻住的湖面。 开发同学甩来一段PyTorch DataParallel代码,注释写着:“已按最佳实践拆分batch,理论上线性加速”。 ——这场景你熟不熟?