3.1.3 DStream(离散流)


文档摘要

3.1.3 DStream(离散流) 3.1.3 DStream(离散流)详解:Spark Streaming 的核心抽象 DStream 的概念与本质 DStream,顾名思义,是“离散化的数据流”。它并非真正意义上的连续数据流,而是 Spark Streaming 将连续的数据流在时间维度上切分成一系列小的批次(batches),每个批次都由一个 RDD (Resilient Distributed Dataset,弹性分布式数据集) 来表示。因此,DStream 本质上就是一系列连续的 RDD 组成的序列。 可以将 DStream 想象成一段视频,视频是由一系列连续的帧组成的。在 Spark Streaming 中,每一帧就相当于一个 RDD,代表着在一个时间间隔内接收到的数据。


发布者: 作者: 转发
评论区 (0)
U