2.2.2 DataFrame常用操作 Spark 2.2 DataFrame 常用操作详解与代码实践 引言 DataFrame 基础 在深入常用操作之前,我们先简要回顾 DataFrame 的基本概念和优势。 2.1 DataFrame 的概念 DataFrame 是 Spark SQL 模块中的核心数据抽象,它类似于关系型数据库中的表,以行和列的形式组织数据。与 RDD(弹性分布式数据集)相比,DataFrame 具有以下优势: 结构化数据: DataFrame 拥有 Schema 信息,明确定义了每列的数据类型,使得数据处理更加规范和高效。 优化执行: Spark SQL 引擎可以利用 DataFrame 的 Schema 信息进行查询优化,例如谓词下推、列剪枝等,从而提升执行性能。