8.1.1 并行度设置策略 在分布式计算的世界里,并行度不是一串可以随意填写的数字,而是一把双刃剑——它既能劈开数据洪流,让吞吐量如春潮奔涌;也能刺穿资源边界,让集群在高负载下发出刺耳的警报声。你有没有经历过这样的场景:Flink 作业设置了 ,任务启动后 CPU 利用率却只有 35%,而下游 Kafka sink 却持续背压,Checkpoint 总是超时?或者 Spark 中 开启后,自适应查询计划反复分裂出 200+ 个 Stage,但 shuffle read 时间不降反升?这些都不是配置“没生效”,而是并行度与底层资源、数据分布、算子语义之间发生了隐秘的错配。 我们常把并行度当作一个“开关”——开大一点,快一点;开小一点,稳一点。但真实世界从不接受这种二元逻辑。