1.2 Spark核心概念


文档摘要

1.2 Spark核心概念 Spark核心概念详解与实践 (基于Spark概述与基础领域) 1.2 Spark核心概念 1.2.1 弹性分布式数据集 (RDD - Resilient Distributed Dataset) RDD是Spark最核心的抽象概念,也是理解Spark计算模型的关键。它代表一个不可变、已分区的记录集合,可以并行操作。 “弹性”体现在RDD的容错性和灵活性,“分布式”表明数据分散存储在集群的不同节点上。 核心特性: 不可变性 (Immutable): RDD一旦创建就不能修改。对RDD的操作会返回新的RDD,保证了数据的一致性和容错性。 已分区 (Partitioned): RDD的数据被分割成多个分区,每个分区可以分布在集群的不同节点上并行处理,提升计算效率。


发布者: 作者: 转发
评论区 (0)
U