Kubernetes如何纳管和调度GPU资源

原创于 2025-11-11 17:01:39 发布 · 1k 阅读

29 ·

CC 4.0 BY-SA版权

文章标签：

#kubernetes #容器 #云原生 #GPU

运维专栏收录该内容

121 篇文章

订阅专栏

ModelEngine·创作计划征文活动 10w+人浏览 1.4k人参与

在Kubernetes中纳管和调度GPU资源，涉及设备插件、调度策略及虚拟化技术，核心目标是让容器化应用能高效、隔离地使用GPU加速计算。下面我将为你详细解析其核心技术、工作原理及实践方案。

🔮 GPU纳管：让K8s识别GPU

Kubernetes 本身并不直接认识 GPU 这类特殊硬件，需要通过设备插件机制来发现、注册并管理它们。

核心机制：Device Plugin
GPU厂商（如NVIDIA）会提供一个Device Plugin的Pod，运行在每个GPU节点上。这个Pod负责向kubelet报告该节点上有多少GPU，并健康检查GPU设备。
关键步骤：安装驱动与插件
- 节点准备：在每个GPU节点上安装对应的GPU驱动和NVIDIA Container Toolkit（原nvidia-docker2），使得Docker和容器运行时能够访问GPU。
- 部署插件：在集群中部署NVIDIA设备插件DaemonSet，它会自动识别并上报节点上的GPU资源。
资源暴露与请求
成功部署后，节点会暴露一种自定义资源，例如 nvidia.com/gpu。在Pod中，你就可以通过resources.limits来申请这个资源。
一个重要限制是：GPU只能在limits中指定。你可以不写requests，Kubernetes会默认使用限制值作为请求值；如果同时指定limits和requests，这两个值必须相等。
```
apiVersion: v1
kind: Pod
metadata:
  name: gpu-pod
spec:
  containers:
  - name: gpu-container
    image: nvidia/cuda:10.0-base
    resources:
      limits:
        nvidia.com/gpu: 1  # 请求1个GPU
```
以上示例展示了如何在Pod中申请一个完整的GPU。

🎯 高级调度：精细分配GPU策略

基础的GPU请求只能保证Pod获得一张卡，但在生产环境中，你往往需要更精细的调度控制。

节点选择器与亲和性
如果集群中混有不同型号的GPU，你可以通过给节点打标签来实现Pod的精准调度。
```
kubectl label nodes node1 accelerator=nvidia-a100
kubectl label nodes node2 accelerator=nvidia-v100
```
在Pod的spec中，就可以使用nodeSelector或更灵活的nodeAffinity，确保Pod被调度到拥有指定型号GPU的节点上。
自动节点标签
手动打标签效率低下。你可以部署Kubernetes Node Feature Discovery来自动检测节点硬件特性（包括GPU型号）并添加相应标签。
污点与容忍度
为了防止非GPU工作负载被调度到昂贵的GPU节点上，你可以给GPU节点打上污点。
```
kubectl taint nodes <gpu-node-name> nvidia.com/gpu=true:NoSchedule
```
这样，只有那些设置了相应容忍度的Pod才能被调度到该节点。
专用调度器
Kubernetes默认调度器适合通用场景，但对于AI/ML任务，NVIDIA KAI Scheduler或Volcano这类批处理调度器更为合适。它们提供了如Gang Scheduling（确保一个任务的所有Pod同时被调度，否则都不调度）、Bin Packing（提高节点资源利用率）等高级特性。

在这里插入图片描述

✨ 虚拟化与共享：提升GPU利用率

整卡调度可能导致GPU资源利用率低下。GPU虚拟化与共享技术旨在将一块物理GPU分割成多个虚拟设备，供多个Pod共享。

特性	整卡调度	虚拟化/共享调度
隔离粒度	卡级，强隔离	子卡级，共享隔离
资源分配	静态，固定整卡	动态，可按需分配
利用率	可能较低	显著提升
适用场景	大规模训练，高性能计算	推理服务，开发测试，小规模任务

下面的表格对比了三种主要的共享方案：

方案类型	核心原理	优势	劣势	典型方案
时间片共享	通过MPS让多个进程分时复用GPU计算引擎。	实现相对简单。	隔离性差，一个进程的错误可能影响同卡所有进程。	NVIDIA MPS
显存虚拟化	将物理GPU显存划分为多个虚拟区，每个容器独享一部分。	实现了显存隔离。	计算单元仍需共享，算力隔离弱。	CCE GPU虚拟化
硬件虚拟化	依赖SR-IOV等硬件技术，创建多个虚拟GPU。	隔离性最好，性能接近物理GPU。	需要特定硬件和支持vGPU的驱动，成本高。	NVIDIA vGPU

实践示例：Kubernetes默认GPU共享
在支持GPU虚拟化的集群中，你可以直接请求小数量的GPU。

resources:
  limits:
    nvidia.com/gpu: 0.5  # 请求半张GPU卡

这表示该容器将使用一张物理GPU的50%资源。在华为云CCE中，这会被识别为显存隔离模式，系统按比例（如0.5）为容器分配GPU显存。

注意事项：使用不同GPU资源名称（如nvidia.com/gpu和volcano.sh/gpu-mem）的Pod之间，调度器无法将其视为同类资源，因此不支持装箱调度。

🛠️ 生产实践与未来趋势

最佳实践与多租户管理

强制放置与资源隔离：利用污点和容忍度，确保只有GPU工作负载能调度到GPU节点，避免资源浪费。对于多租户场景，结合命名空间和网络策略，实现工作负载的逻辑隔离。
监控与运维：使用nvidia-smi或更专业的NVIDIA DCGM来监控GPU使用情况。在云上环境，可以充分利用平台提供的GPU监控和弹性伸缩能力。

前沿技术展望

动态资源分配：Kubernetes的DRA机制为未来更灵活、更厂商中立的GPU等硬件资源管理奠定了基础。
多节点NVLink：NVIDIA推出的ComputeDomains抽象，旨在简化Kubernetes上跨节点的NVLink互联配置，让超大规模模型训练能更便捷地利用多节点GPU资源。
基础设施租户平台：如vCluster Labs提出的方案，通过虚拟集群、安全沙箱等技术，在物理GPU集群上为不同AI团队提供安全、隔离且弹性的虚拟工作空间。

💎 总结

在Kubernetes中管理GPU是一个从基础纳管到精细调度，再到高效共享的渐进过程。你需要根据业务需求（是重量级训练还是高并发推理）、成本考量和技术栈，选择最适合的方案。对于绝大多数场景，从标准的设备插件和资源请求开始，逐步探索GPU虚拟化共享和高级调度器，是提升GPU利用率和集群运行效率的关键。

希望这份详细的说明能帮助你更好地在K8S中驾驭GPU资源。如果你在具体实践中遇到更细致的问题，欢迎继续探讨。