2.5.5 合理使用持久化和缓存

文档摘要

2.5.5 合理使用持久化和缓存 2.5.5 合理使用持久化和缓存：Spark SQL 性能优化的利器 1. 持久化与缓存的概念与意义在 Spark 中，数据是以 RDD（弹性分布式数据集）的形式存在的。默认情况下，每次对 RDD 执行操作时，Spark 都会重新计算这个 RDD 及其依赖关系，这意味着如果同一个 RDD 在后续的操作中被多次使用，将会被重复计算多次。这种重复计算会消耗大量的计算资源和时间，尤其是在数据 lineage 较长或者计算过程较为复杂的情况下，性能瓶颈会更加明显。持久化和缓存的核心思想是将中间计算结果存储在内存或磁盘中，以便在后续的操作中直接复用，避免重复计算，从而显著提升性能。