Spark Streaming

最新推荐文章于 2025-01-06 14:41:25 发布

zero__007

最新推荐文章于 2025-01-06 14:41:25 发布

阅读量382

点赞数

分类专栏： # Spark

Spark 专栏收录该内容

11 篇文章

订阅专栏

本文介绍了 Spark Streaming 的基本原理及其实现方式。包括 DStream 的概念、如何使用 Spark 原语进行数据处理、以及如何配置窗口大小和滑动间隔等关键特性。还探讨了 updateStateByKey 和 transform 等特殊操作的应用场景。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

转载自：http://blog.youkuaiyun.com/snail_gesture/article/details/49968617
http://blog.selfup.cn/619.html

概述

Spark Streaming类似于Apache Storm，用于流式数据的处理。根据其官方文档介绍，Spark Streaming有高吞吐量和容错能力强这两个特点。Spark Streaming支持的数据输入源很多，例如：Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用Spark的高度抽象原语如：map、reduce、join、window等进行运算。而结果也能保存在很多地方，如HDFS，数据库等。另外Spark Streaming也能和MLlib（机器学习）以及Graphx完美融合。
其内部工作方式如下：

在Spark Streaming内部实现是接收到输入数据之后，以时间为分片对数据拆分成多个Batch。切分好数据分片之后，Spark Engine对数据进行计算，最后的结果也是以batch的方式组成的。对于每一批的处理batch是并行处理的。例如，一秒产生一批，如果前一秒的还没处理完，下一秒的将不会被计算，这时候就会产生阻塞。因此这里面的时间设置也是一个优化点。

DStream

Discretized Streams(DStreams)是Spark Streaming的基础抽象，代表持续性的数据流和经过各种Spark原语操作后的结果数据流。在内部实现上，DStream由连续的序列化RDD来表示。每个RDD含有一段时间间隔内的数据，这些RDD会被DSream管理和计算。流进来的数据会被DStream划分为不同的时间段，每个时间段都会产生很多RDD，每个时间段是有自己ID的，第一个时间区间是[0,1),左闭右开区间的，然后依次类推。如下图：

对数据的操作也是按照RDD为单位来进行的，数据是串行输入的，每个batch处理是并行的。如下图所示，下方的RDD都是通过Spark高级原语的转换而来，计算过程由Spark engine来完成。

每一个时间段进行单词统计，进行flatMap操作，单词统计，然后随着时间流逝依次类推。

DStream上的原语与RDD的类似，分为Transformations（转换）和Output Operations（输出）两种，此外转换操作中还有一些比较特殊的原语，如：updateStateByKey()、transform()以及各种window相关的原语。
updateStateByKey()用于记录历史记录。若不用UpdateStateByKey来更新状态，那么每次数据进来后分析完成后，结果输出后将不再保存。
transform()允许DStream上执行任意的RDD-to-RDD函数。通过该函数可以方便的扩展Spark API。
window设置窗口的大小和滑动窗口的间隔来动态的获取当前Steaming的允许状态。

上图中每一个红色的方框表示一个窗口，窗口的长度为3，滑动间隔即窗口操作的时间间隔为2，也就是说，每隔2个操作时间，对过去3个时间进行统计。注意：比如窗口长度为3 的话，则是左闭右开的，也就是说 window at time 3 是对time1 和time2 进行统计的，不包含time3。
当某个Output Operations原语被调用时，stream才会开始真正的计算过程。例如：

print()
foreachRDD(func)
saveAsObjectFiles(prefix, [suffix])
saveAsTextFiles(prefix, [suffix])
saveAsHadoopFiles(prefix, [suffix]

更多详细内容请参考： https://github.com/lw-lin/CoolplaySpark