SparkStreaming实时计算的框架和执行过程

最新推荐文章于 2024-09-26 20:47:25 发布

原创最新推荐文章于 2024-09-26 20:47:25 发布 · 1k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#SparkStreaming实时计算的框架 #SparkStreaming执行过程

Spark 专栏收录该内容

33 篇文章

订阅专栏

本文详细介绍了SparkStreaming的工作原理及运行流程，包括如何通过Receiver接收数据并生成Block，随后将Block备份以确保容错性。此外，还阐述了Driver如何定时启动JobGenerator，以及JobScheduler如何调度Jobset。

SparkStreaming 为每一个数据源启动对应的Reciver（接收器），接收器以任务的形式运行在应用的Executor（执行器）进程中，从输入源接收数据，把数据分组为小的批次（batch），保存为RDD。然后把数据复制到另一个Executor中备份，保障容错性。

然后我们根据这框架来谈一谈SparkStreaming运行的具体流程：

1、客户端提交作业后启动Driver，通过Driver来启动Receiver，定时去启动任务的处理。

2、每个作业包含多个Executor，每个Executor以线程的方式运行task，Spark Streaming至少包含一个receiver task。

3、Receiver接收数据后生成Block，并把BlockId汇报给Driver，然后备份到另外一个Executor上。

4、ReceiverTracker维护Reciver汇报的BlockId。

5、Driver定时启动JobGenerator，根据Dstream的关系生成逻辑RDD，然后创建Jobset，交给JobScheduler。

6、JobScheduler负责调度Jobset，交给DAGScheduler，DAGScheduler根据逻辑RDD，生成相应的Stages，每个stage包含一到多个task，将TaskSet提交给TaskSchedule。

7、TaskScheduler负责把task调度到Executor上，并维护task的运行状态。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。