Kubernetes 管理 GPU 资源的本质,是将集群中物理节点上的 GPU 设备作为一种可调度、可监控的特殊计算资源纳入其统一的管理体系。
下面我将从核心概念、工作原理、关键特性和高级功能四个方面,具体说明 K8S 如何管理 GPU。

一、核心概念与工作原理
K8S 并不直接管理 GPU,而是通过一套设备插件框架来扩展其对第三方硬件(如 GPU、FPGA、InfiniBand 等)的支持。
1. 核心组件与流程
其工作流程可以概括为以下步骤:
flowchart TD
A[“GPU设备<br>安装在Node上”] --> B[“NVIDIA GPU驱动<br>与容器运行时”]
subgraph C [K8S节点]
B --> D[NVIDIA Device Plugin<br>以DaemonSet方式运行]
D -- “注册/上报” --> E[“Kubelet<br>节点代理”]
end
E -- “通知API Server” --> F[K8S API Server]
subgraph G
订阅专栏 解锁全文
819

被折叠的 条评论
为什么被折叠?



