Spark Streaming

本文介绍了 Spark Streaming 的基本原理及其实现方式。包括 DStream 的概念、如何使用 Spark 原语进行数据处理、以及如何配置窗口大小和滑动间隔等关键特性。还探讨了 updateStateByKey 和 transform 等特殊操作的应用场景。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

转载自:http://blog.youkuaiyun.com/snail_gesture/article/details/49968617
              http://blog.selfup.cn/619.html

概述

       Spark Streaming类似于Apache Storm,用于流式数据的处理。根据其官方文档介绍,Spark Streaming有高吞吐量和容错能力强这两个特点。Spark Streaming支持的数据输入源很多,例如:Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用Spark的高度抽象原语如:map、reduce、join、window等进行运算。而结果也能保存在很多地方,如HDFS,数据库等。另外Spark Streaming也能和MLlib(机器学习)以及Graphx完美融合。
       其内部工作方式如下:
       
        在Spark Streaming内部实现是接收到输入数据之后,以时间为分片对数据拆分成多个Batch。切分好数据分片之后,Spark Engine对数据进行计算,最后的结果也是以batch的方式组成的。 对于每一批的处理batch是并行处理的。例如,一秒产生一批,如果前一秒的还没处理完,下一秒的将不会被计算,这时候就会产生阻塞。因此这里面的时间设置也是一个优化点。 

DStream

       Discretized Streams(DStreams)是Spark Streaming的基础抽象,代表持续性的数据流和经过各种Spark原语操作后的结果数据流。在内部实现上,DStream由连续的序列化RDD来表示。每个RDD含有一段时间间隔内的数据,这些RDD会被DSream管理和计算。流进来的数据会被DStream划分为不同的时间段,每个时间段都会产生很多RDD,每个时间段是有自己ID的,第一个时间区间是[0,1),左闭右开区间的,然后依次类推。如下图:
       
       对数据的操作也是按照RDD为单位来进行的,数据是串行输入的,每个batch处理是并行的。如下图所示,下方的RDD都是通过Spark高级原语的转换而来,计算过程由Spark engine来完成。
       
       每一个时间段进行单词统计,进行flatMap操作,单词统计,然后随着时间流逝依次类推。

       DStream上的原语与RDD的类似,分为Transformations(转换)和Output Operations(输出)两种,此外转换操作中还有一些比较特殊的原语,如:updateStateByKey()、transform()以及各种window相关的原语。
       updateStateByKey()用于记录历史记录。若不用UpdateStateByKey来更新状态,那么每次数据进来后分析完成后,结果输出后将不再保存。
       transform()允许DStream上执行任意的RDD-to-RDD函数。通过该函数可以方便的扩展Spark API。
       window设置窗口的大小和滑动窗口的间隔来动态的获取当前Steaming的允许状态。
       
       上图中每一个红色的方框表示一个窗口,窗口的长度为3,滑动间隔即窗口操作的时间间隔为2,也就是说,每隔2个操作时间,对过去3个时间进行统计。注意:比如窗口长度为3 的话,则是左闭右开的,也就是说 window at time 3 是对time1 和time2 进行统计的,不包含time3。 
       当某个Output Operations原语被调用时,stream才会开始真正的计算过程。例如:
print()
foreachRDD(func)
saveAsObjectFiles(prefix, [suffix])
saveAsTextFiles(prefix, [suffix])
saveAsHadoopFiles(prefix, [suffix]


更多详细内容请参考: https://github.com/lw-lin/CoolplaySpark
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值