8.1.1 并行度设置策略

文档摘要

8.1.1 并行度设置策略在分布式计算的世界里，并行度不是一串可以随意填写的数字，而是一把双刃剑——它既能劈开数据洪流，让吞吐量如春潮奔涌；也能刺穿资源边界，让集群在高负载下发出刺耳的警报声。你有没有经历过这样的场景：Flink 作业设置了，任务启动后 CPU 利用率却只有 35%，而下游 Kafka sink 却持续背压，Checkpoint 总是超时？或者 Spark 中开启后，自适应查询计划反复分裂出 200+ 个 Stage，但 shuffle read 时间不降反升？这些都不是配置“没生效”，而是并行度与底层资源、数据分布、算子语义之间发生了隐秘的错配。我们常把并行度当作一个“开关”——开大一点，快一点；开小一点，稳一点。但真实世界从不接受这种二元逻辑。