Spark之Spark Streaming

最新推荐文章于 2025-04-19 00:44:33 发布

勤奋的ls丶

最新推荐文章于 2025-04-19 00:44:33 发布

阅读量2.3k

点赞数 5

分类专栏： spark 文章标签： spark 大数据 big data

本文链接：https://blog.youkuaiyun.com/lslslslslss/article/details/123009357

版权

spark 专栏收录该内容

9 篇文章

订阅专栏

SparkStreaming是Apache Spark提供的一个实时数据处理框架，它使用DStream（离散化流）作为核心抽象。DStream是由一系列RDD（弹性分布式数据集）构成的序列，用于表示随着时间推移的数据流。DStream可以通过多种方式创建，如从RDD队列、自定义数据源或Kafka数据源。无状态转换如map、flatMap和filter对每个批次独立操作，而有状态转换如updateStateByKey和基于窗口的操作则允许处理历史状态。DStream的输出操作包括保存到文件、打印或调用foreachRDD进行自定义处理。在SparkStreaming中，必须设置至少一个输出操作以启动流处理任务。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Spark Streaming是什么

Spark Streaming用于流式数据处理

DStream是什么

Spark Streaming使用离散化流作为抽象表示，称作DStream，是随着时间的推移而得到的数据的序列。在DStream内部，每个时间区间收到的数据都作为RDD存在，DStream就是由这些RDD所组成的序列，DStream就是对RDD在实时处理场景中的一种封装。

架构图

DStream的创建

1.通过RDD队列

2.自定义数据源接收器

3.从kafka数据源接收

DStream转换

1.无状态转化操作

就是把RDD转化操作应用到DStream每个批次上，每个批次相互独立，自己算自己的。

常规无状态转化操作

DStream的部分无状态转化操作列在了下表中，都是DStream自己的API。

函数名称	目的	Scala示例	函数签名
map()	对DStream中的每个元素应用给定函数，返回由各元素输出的元素组成的DStream。	ds.map(x=>x + 1)	f: (T) -> U
flatMap()	对DStream中的每个元素应用给定函数，返回由各元素输出的迭代器组成的DStream。	ds.flatMap(x => x.split(" "))	f: T -> Iterable[U]
filter()	返回由给定DStream中通过筛选的元素组成的DStream	ds.filter(x => x != 1)	f: T -> Boolean
repartition()	改变DStream的分区数	ds.repartition(10)	N / A
reduceByKey()	将每个批次中键相同的记录规约。	ds.reduceByKey( (x, y) => x + y)	f: T, T -> T
groupByKey()	将每个批次中的记录根据键分组。	ds.groupByKey()	N / A