Spark之SparkStreaming

Spark Streaming的编程抽象是离散化流,也就是DStream。它是一个 RDD 序列,每个RDD代表数据流中一个时间片内的数据。
Spark Streaming为每个输入源启动对应的接收器。接收器运行在Executor中,从输入源收集数据并保存为 RDD
默认情况下接收到的数据后会复制到另一个Executor中,进行容错;
Driver 中的 StreamingContext 会周期性地运行 Spark 作业来处理这些数据。

SparkStreaming 执行流程

在这里插入图片描述

  1. client 提交SparkStreaming作业,Driver启动Receiver,Receiver接受数据。
  2. 每个executor以线程方式运行task,一般情况每个sparkstreaming至少有一个receiver task
  3. Receiver接收数据后生成Block,并把BlockId汇报给Driver,然后备份到另外一个 Executor 上
  4. ReceiverTracker 维护Reciver 上报的BlockID
  5. Driver定时启动JobGenerator,根据Dstream 的关系生成RDD,创建JobSet,交给JobScheduler
  6. JobScheduler负责调度Jobset,交给DAGScheduler,DAGScheduler根据逻辑RDD,生成相应的Stages,每个stage包含一到多个Task,将TaskSet提交给TaskSchedule
  7. TaskScheduler负责把 Task 调度到 Executor 上,并维护 Task 的运行状态

可以看出SparkStreaming只是将数据按时间划分为DStream,而且只能根据BatchTime进行数据处理,没有支持事件时间。
之后出现的StructureStreaming

  1. 以结构化的方式去操作流式数据,简化了实时计算过程
  2. 复用了 Catalyst 引擎来优化SQL操作
  3. . 支持增量计算和基于event time的计算
评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值