2.3.1.2 跨节点 Shuffle 2.3.1.2 跨节点 Shuffle:当 shuffle write 突然“静音”——一个被忽略的 Netty ChannelInactiveException 故障闭环排查实录 凌晨两点十七分,集群监控面板上,某 Spark 作业的 Stage 47 正在缓慢爬行。Shuffle Read 速率从 1.2 GB/s 断崖式跌至 0;Executor 日志里,数百个 像雪片般飘落;而最诡异的是——所有 shuffle write 日志戛然而止:没有 ,没有 ,甚至没有 。仿佛那些本该飞向远端节点的 partition 数据,在写出前一秒,被一只无形的手按下了静音键。 这不是 OOM,不是 GC stall,不是磁盘满,也不是网络分区。