4.1.3 流水线并行 (Pipelining) 4.1.3 流水线并行(Pipelining):别让“气泡”在GPU里空转三毫秒——一个被忽略的micro-batch调度陷阱与零拷贝重叠修复方案 你有没有试过这样一种场景: 模型参数量涨到12B,用8张A100做流水线并行, ,每张卡分到3层;训练吞吐看着体面——128 tokens/sec,loss曲线也平滑;但当你把 拉到最大窗口、开着 盯住每张卡的GPU-util,突然发现:第1卡忙得发烫(98%),第2卡间歇性喘息(65%),第3卡像在等红灯(42%),第4卡干脆在刷屏保(28%)。 不是显存不够,不是梯度同步慢,也不是数据加载瓶颈。