Spark Executor Driver资源调度小结

最新推荐文章于 2024-08-23 10:31:04 发布

原创

最新推荐文章于 2024-08-23 10:31:04 发布 · 2.5w 阅读

20 ·

CC 4.0 BY-SA版权

文章标签：

#spark #负载均衡 #集群 #executor #调度

本文详细介绍了Spark中Executor的资源调度，包括Driver和Executor的调度过程，特别是SpreadOut和非SpreadOut两种分配策略，强调了在同一App中每个Worker只能有一个Executor，并讨论了这种设计的原因和优缺点。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、引子

在Worker Actor中，每次LaunchExecutor会创建一个CoarseGrainedExecutorBackend进程，Executor和CoarseGrainedExecutorBackend是1对1的关系。也就是说集群里启动多少Executor实例就有多少CoarseGrainedExecutorBackend进程。

那么到底是如何分配Executor的呢？怎么控制调节Executor的个数呢？

二、Driver和Executor资源调度

下面主要介绍一下Spark Executor分配策略：

我们仅看，当Application提交注册到Master后，Master会返回RegisteredApplication，之后便会调用schedule（）这个方法，来分配Driver的资源，和启动Executor的资源。

schedule()方法是来调度当前可用资源的调度方法，它管理还在排队等待的Apps资源的分配，这个方法是每次在集群资源发生变动的时候都会调用，根据当前集群最新的资源来进行Apps的资源分配。

Driver资源调度：

随机的将Driver分配到空闲的Worker上去，详细流程请看我写的注释：）

    // First schedule drivers, they take strict precedence over applications
    val shuffledWorkers = Random.shuffle(workers) // 把当前workers这个HashSet的顺序随机打乱
    for (worker <- shuffledWorkers if worker.state == WorkerState.ALIVE) { //遍历活着的workers
      for (driver <- waitingDrivers) { //在等待队列中的Driver们会进行资源分配
        if (worker.memoryFree >= driver.desc.mem && worker.coresFree >= driver.desc.cores) { //当前的worker内存和cpu均大于当前driver请求的mem和cpu，则启动
          launchDriver(worker, driver) //启动Driver 内部实现是发送启动Driver命令给指定Worker，Worker来启动Driver。
          waitingDrivers -= driver //把启动过的Driver从队列移除
        }
      }
    }

Executor资源调度：

Spark默认提供了一种在各个节点进行round-robin的调度，用户可以自己设置这个flag

val spreadOutApps = conf.getBoolean("spark.deploy.spreadOut", true)

在介绍之前我们先介绍一个概念，

可用的Worker：什么是可用，可用就是 资源空闲足够且满足一定的规则来启动当前App的Executor。

Spark定义了一个canUse方法：这个方法接受一个ApplicationInfo的描述信息和当前Worker的描述信息。

1、 当前worker的空闲内存 比 该app在每个slave要占用的内存 （executor.memory默认512M）大

2、当前app从未在此worker启动过App

总结：从这点看出，要满足：该Worker的当前可用最小内存要比配置的executor内存大，并且对于同一个App只能在一个Worker里启动一个Exeutor，如果要启动第二个Executor，那么请到其它Worker里。这样的才算是对App可用的Worker。

  /**
   * Can an app use the given worker? True if the worker has enough memory and we haven't already
   * launched an executor for the app on it (right now the standalone backend doesn't like having
   * two executors on the same worker).
   */
  def canUse(app: ApplicationInfo, worker: WorkerInfo): Boolean = {
    worker.memoryFree >= app.desc.memoryPerSlave && !worker.hasExecutor(app)
  }