8.3.2 预聚合与加盐策略 在分布式计算的世界里,数据倾斜不是一场突如其来的暴雨,而是一场悄然蔓延的慢性病——它不声不响地拖慢作业进度,让本该并行的算力在某个Task上堆叠成山,让资源利用率曲线在监控面板上画出刺眼的“长尾”。你见过一个Reduce Task耗时127分钟,而其余99个平均仅用8秒的场景吗?这不是故障,是倾斜;这不是配置失误,是数据分布与计算逻辑之间一次沉默的错配。 我们常把数据倾斜比作交通拥堵:主干道畅通无阻,但所有车辆都挤向同一座桥——那座桥就是Key的热点。而预聚合与加盐策略,正是我们为这座桥修建分流匝道、增设临时收费站、甚至重构路网结构的一整套工程化方案。