4.1.2 任务分解 (Task Decomposition) 4.1.2 任务分解(Task Decomposition):别让“均匀切片”成为性能杀手——一个被90%工程师忽略的负载不均衡根源与动态粒度自适应方案 你有没有遇到过这样的场景? 代码跑在8核CPU上, 里显示CPU利用率峰值仅65%, 里却赫然出现3个核心飙到99%,其余5个长期徘徊在10%以下; PyTorch DataLoader启用了 ,但训练吞吐量卡在单worker的1.2倍, 里GPU显存吃满、计算单元却频频空转; Spark作业的Stage页面上,72个task中69个在12秒内完成,剩下3个拖着整个Stage卡在147秒——它们处理的数据量,是其他task的23倍。 这不是硬件瓶颈。 这不是框架bug。