spark on yarn yarn-client模式实现源码走读

最新推荐文章于 2024-11-19 22:43:23 发布

原创

最新推荐文章于 2024-11-19 22:43:23 发布 · 765 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#spark #yarn

Spark版本2.4.0

在SparkContext的初始化过程中，将会根据配置的启动模式来选择不同的任务调度器TaskScheduler，而这个不同模式的实现也是在这里根据选择的TaskScheduler类型进行区分并实现。

case masterUrl =>
  val cm = getClusterManager(masterUrl) match {
    case Some(clusterMgr) => clusterMgr
    case None => throw new SparkException("Could not parse Master URL: '" + master + "'")
  }
  try {
    val scheduler = cm.createTaskScheduler(sc, masterUrl)
    val backend = cm.createSchedulerBackend(sc, masterUrl, scheduler)
    cm.initialize(scheduler, backend)
    (backend, scheduler)
  } catch {
    case se: SparkException => throw se
    case NonFatal(e) =>
      throw new SparkException("External scheduler cannot be instantiated", e)
  }

上方式SparkContext的createTaskScheduler()方法，在这里当选择了yarn模式，将会在这里加载相应的ClusterManager来进行创建TaskScheduler，在标题所提到的yarn-client模式下，这里会分别创建一个YarnScheduler和YarnClinetSchedulerBackend作为spark任务运行的调度者。

YarnScheduler实现只是简单的继承了local模型下会选择的TaskSchedulerImpl，因为在yarn-client模式下和local一样，Driver端运行在本地，所以YarnScheduler的实现并没有什么特殊的地方。

但是相应的，由于backend实现了和yarn的交互，自然实现存在比较大的差异。

当TaskScheduler正式开始启动的时候，在YarnClinetSchedulerBackend的start()方法中，也会开始初始化一个yarn客户端，并在这里完成向yarn的ResourceManager注册提交应用的流程。

override def start() {
  val driverHost = conf.get("spark.driver.host")
  val driverPort = conf.get("spark.driver.port")
  val hostport = driverHost + ":" + driverPort
  sc.ui.foreach { ui => conf.set("spark.driver.appUIAddress", ui.webUrl) }

  val argsArrayBuf = new ArrayBuffer[String]()
  argsArrayBuf += ("--arg", hostport)

  logDebug("ClientArguments called with: " + argsArrayBuf.mkString(" "))
  val args = new ClientArguments(argsArrayBuf.toArray)
  totalExpectedExecutors = SchedulerBackendUtils.getInitialTargetExecutorNumber(conf)
  client = new Client(args, conf)
  bindToYarn(client.submitApplication