5.1.2.1 Shuffle 与 Rebalance


文档摘要

5.1.2.1 Shuffle 与 Rebalance 你有没有在凌晨三点盯着 Flink Web UI,看着某个 作业的 subtask 0 的 CPU 持续飙到 98%,而 subtask 7 却像冬眠一样静默在 3%? 你有没有在 Spark UI 的 Stage 页面里,发现 shuffle write 数据量高达 127 GB,但下游 task 的 shuffle read 却只有 2.1 GB —— 其余 125 GB 像被黑洞吸走,既没落盘、也没报错、更没日志? 你有没有改过一百次 ,却始终搞不清为什么 Adaptive Query Execution(AQE)在 rebalance 后,新生成的 partition 数量总是比预期多出 3 个,且其中两个永远空跑?


发布者: 作者: 转发
评论区 (0)
U