[spark streaming] 动态生成 Job 并提交执行

最新推荐文章于 2022-08-18 17:20:05 发布

原创

最新推荐文章于 2022-08-18 17:20:05 发布 · 1.7k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#spark #spark-streaming #源码

本文详细解析了Spark Streaming中Job的生成过程，包括定时器触发、分配Block、生成Jobs以及封装和提交JobSet执行的步骤。在每个batch时间内，JobGenerator通过receiverTracker分配Block，为不同outputStreams生成相应的Jobs，最终将Jobs封装成JobSet并提交到JobExecutor进行并行执行。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

Spark Streaming Job的生成是通过JobGenerator每隔 batchDuration 长时间动态生成的，每个batch 对应提交一个JobSet，因为针对一个batch可能有多个输出操作。

概述流程：

定时器定时向 eventLoop 发送生成job的请求
通过receiverTracker 为当前batch分配block
为当前batch生成对应的 Jobs
将Jobs封装成JobSet 提交执行

入口

在 JobGenerator 初始化的时候就创建了一个定时器：

private val timer = new RecurringTimer(clock, ssc.graph.batchDuration.milliseconds,
    longTime => eventLoop.post(GenerateJobs(new Time(longTime))), "JobGenerator")

每隔 batchDuration 就会向 eventLoop 发送 GenerateJobs(new Time(longTime))消息，eventLoop的事件处理方法中会调用generateJobs(time)方法：

      case GenerateJobs(time) => generateJobs(time)

private def generateJobs(time: Time) {
    // Checkpoint all RDDs marked for checkpointing to ensure their lineages are
    // truncated periodically. Otherwise, we may run into stack overflows (SPARK-6847).
    ssc.sparkContext.setLocalProperty(RDD.CHECKPOINT_ALL_MARKED_ANCESTORS, "true")
    Try {
      jobScheduler.receiverTracker.allocateBlocksToBatch(time) // allocate received blocks to batch
      graph.generateJobs(time) // generate jobs using allocated block
    } match {
      case Success(job