10.1.2 Spark (大数据处理框架)


文档摘要

10.1.2 Spark (大数据处理框架) Scala 与 Spark:大数据处理的利器 1. Spark 核心概念 在深入代码之前,我们需要了解 Spark 的几个核心概念: RDD (Resilient Distributed Dataset): Spark 的核心抽象,代表一个不可变的、分布式的数据集合。RDD 可以从各种数据源创建,并通过转换操作(transformations)生成新的 RDD。 Transformation (转换): 对 RDD 进行操作,生成新的 RDD。转换操作是延迟执行的,只有在执行动作操作时才会真正计算。例如 , , , 等。 Action (动作): 触发 Spark 计算的操作,返回结果给驱动程序或者将结果写入外部存储系统。例如 , , , 等。


发布者: 作者: 转发
评论区 (0)
U