Spark Streaming概念学习系列之SparkStreaming的高层抽象DStream

本文介绍了Spark Streaming中DStream的概念及其与RDD的关系。DStream是Spark Streaming为简化流处理而提出的高级抽象,它是一系列连续的RDD序列,可以从外部数据源创建,也可以通过转换其他DStream获得。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

 

 

  不多说,直接上干货!

 

 

SparkStreaming的高层抽象DStream

 

 

    

  为了便于理解,Spark Streaming提出了DStream抽象,代表连续不断的数据流。

  DStream 是一个持续的RDD 序列。

  可以从外部输入源创建DStream,也可以对其他DStream 应用进行转化操作得到新DStream。

 

 

 

Dstream与RDD的关系

        

      

 

  DStream 是一个持续的RDD 序列。

  对Dstream的转换操作最终会映射到内部随时间不断生成的RDD上。

 

 

Batch duration

    

  Spark Streaming按照设定的batch duration来累积数据,周期结束时把周期内的数据作为一个RDD,并提交任务给Spark Engine。

  batch duration的大小决定了Spark Streaming提交作业的频率和处理延迟。

  batch duration的大小设定取决于用户的需求,一般不会太大。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值