Spark定制班第25课:Spark Streaming的StreamingContext启动及JobScheduler启动源码图解

本文详细解析了Spark Streaming中StreamingContext和JobScheduler的启动过程,包括各组件的状态转换及内部消息循环机制,揭示了JobScheduler如何管理和调度任务。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本期内容:
1. StreamingContext启动源码图解
2. JobScheduler启动源码图解

StreamingContext的start方法对INITIALIZED、ACTIVE、STOPPED等状态分别做不同处理。
StreamingContext在INITIALIZED状态时,用validate方法对DStreamGraph、checkpoint等做有效检查,然后启动新的线程设置SparkContext,最后启动JobScheduler。
JobScheduler中的eventLoop是带有一个消息队列的线程循环器。接收的消息有JobStarted、JobCompleted、ErrorReported等三种。eventLoop用start方法启动。
JobScheduler还把所有InputDStream的rateController放入监听器中。然后启动了listenerBus。
然后启动了receiverTracker、jobGenerator。这两个在JobScheduler中至关重要。
ReceiverTracker中有个适用于RPC的ReceiverTrackerEndpoint类型的消息循环体,用receive方法接收StartAllReceivers、RestartReceiver、CleanupOldBlocks、UpdateReceiverRteLimit等4种消息,用receiveAndREply方法接收RegisterReceiver、AddBlock、DeregisterReceiver、AllReceiverIds、StopAllReceivers等五种消息。消息有自己给自己发的消息,也有远程发来的消息。
shutdownHookManager用于关闭时。env.metricsSystem用于计量,注册的计量信息在StreamingSource中有定义。uiTab用于web界面。针对UI界面,定义有StreamingPage、BatchPage等WebUIPage的子类 ,做定制时也可定义自己的Page。
源码需要在细节上下工夫。深度决定广度。
JobGenerator中也有一个消息循环体。

所以,JobScheduler有3个消息循环体。如下图所示。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值