防止GPU碎片化的实用技巧：Volcano调度器案例分析

最新推荐文章于 2025-10-11 16:51:34 发布

原创最新推荐文章于 2025-10-11 16:51:34 发布 · 1.1k 阅读

14 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #LLM #机器学习 #语言模型 #GPU调度 #volcano

当Volcano在其NVIDIA DGX Cloud配置的Kubernetes集群中面临GPU利用率不足的问题时，NVIDIA最近提供了一种解决方案，不仅满足了合同要求，还超出了预期。

通过结合先进的调度技术与对分布式工作负载的深刻理解，NVIDIA将GPU占用率提升至约90%。以下是NVIDIA问题的详细分析、及他们的解决方法。

问题：GPU碎片化与调度效率低下

比如，NVIDIA 的某个 DGX Cloud Kubernetes集群由数千个GPU组成，每个节点配备多个NVIDIA L40S GPU。该集群支持多种工作负载：

多节点、多GPU分布式训练任务
高吞吐量AI模型的批量推理
GPU支持的数据处理管道
用于开发和分析的交互式笔记本

尽管硬件资源强大，但集群却因GPU碎片化而效率低下，部分节点仅被部分占用，无法用于大型任务。这种低效问题因Volcano调度器的默认行为而加剧，其采用的是任务组调度（gang scheduling）算法。

若不加以干预，NVIDIA 将面临违反合同协议的风险，无法维持至少80%的GPU占用率。这将导致集群容量减少，因为未使用的资源将被收回供其他团队使用。

关键挑战

实施此解决方案需要克服两个主要障碍：

任务组调度的全有或全无方法：需要多个节点GPU的分布式任务若无法同时获得所需资源，将无限期排队，导致瓶颈和任务执行延迟。
随机放置导致的碎片化：工作负载基于简单启发式规则或随机选择分配到节点，常导致GPU分散在节点上，形成碎片化状态（见下图1）。

解决方案：将装箱算法与任务组调度相结合

为解决这些挑战，NVIDIA在Volcano调度器中引入了一种增强的调度策略，将装箱算法（bin-packing）与任务组调度相结合。这种方法专注于整合工作负载，以最大化节点利用率，同时留出其他节点供大型任务使用。

技术实现

NVIDIA通过以下三个关键组件解决了GPU碎片化问题：

工作负载优先级排序：
- 按重要性从高到低对资源进行排序：GPU、CPU和内存。
- 根据资源需求（如选择器和亲和性规则）筛选适合接收工作负载的节点。
通过装箱算法优化放置：
- 按当前利用率从低到高对部分占用的节点进行排名。
- 优先将工作负载放置在空闲资源最少的节点上，确保节点在资源耗尽前被充分利用。
任务组调度集成：
- 增强的调度器保留了任务组调度的全有或全无原则，但增加了智能功能，根据资源整合优先级放置工作负载。

以下为Volcano调度器配置，用于高效的工作负载放置并优先考虑节点利用率。

volcano-scheduler.conf: |
  actions: "enqueue, allocate, backfill"
  tiers:
  - plugins:
    - name: priority
    - name: gang
      enablePreemptable: false
    - name: conformance
  - plugins:
    - name: drf
    - name: predicates
    - name: proportion
    - name: nodeorder
    - name: binpack
      arguments:
        binpack.weight: 10
        binpack.cpu: 2
        binpack.memory: 2
        binpack.resources: "nvidia.com/gpu"
        binpack.resources.nvidia.com/gpu: 8
        binpack.score.gpu.weight: 10
  - plugins:
    - name: overcommit
    - name: rescheduling