8.3.1 Key 分布不均识别 在分布式计算的世界里,数据倾斜不是一场突如其来的暴雨,而是一场静默蔓延的慢性病——它不立刻击垮系统,却让任务像陷进沼泽的车轮,越转越沉、越跑越慢;它不报错,却让Flink作业的背压曲线如心电图般持续高耸,让Spark Stage的执行时间从秒级飙升至小时级;它不拒绝数据,却让99%的Executor在等待那1%的“顽固分区”完成shuffle。当一个Key被千万次写入、被亿级请求命中、被上游系统无意识地“宠幸”,它就不再是普通的数据单元,而成了整个计算链路上的单点瓶颈与隐性雪崩源。 我们常把数据倾斜归咎于“业务逻辑不合理”或“设计缺陷”,但真相是:绝大多数倾斜问题,在发生之前,早已在Key分布的统计指纹中悄然暴露。