4.1.1 数据分解 (Data Decomposition)


文档摘要

4.1.1 数据分解 (Data Decomposition) 4.1.1 数据分解(Data Decomposition):当“均匀切片”成为性能毒药——一个被忽略的负载不均衡陷阱与动态块划分实战方案 你有没有在深夜盯着 命令发呆? CPU 利用率曲线像心电图一样起伏:几个核心飙到 98%,几个却常年徘徊在 12%;MPI 进程日志里反复出现 ;PyTorch DDP 训练吞吐卡在 1.8 GFLOPS/second,远低于理论峰值的 42%…… 你检查了数据加载器、确认了 NCCL 通信带宽、重写了 kernel fusion——可问题依旧。 直到你把 的耗时打点埋进第 17 个样本,才猛然发现:第 0–256 个样本平均耗时 18ms,而第 257–512 个样本平均耗时 83ms。


发布者: 作者: 转发
评论区 (0)
U