【AI基础】K8S环境使用GPU--Kubernetes环境（三）

不同环境下GPU的使用与管理

最新推荐文章于 2025-11-09 15:05:39 发布

原创

最新推荐文章于 2025-11-09 15:05:39 发布 · 1.9k 阅读

12 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #kubernetes #docker #gpu算力 #AI编程

AI时代下，学习如何使用和管理GPU是基础入门技能，本文以常见的NVIDIA GPU为例，介绍在普通机器、Docker和Kubernetes等不同的环境下如何使用和管理GPU。

一、概述

以常见的NVIDIA GPU为例，系统为Linux

1.1 裸机环境BMS

安装对应的GPU Driver（GPU驱动），以及CUDA Toolkit

1.2 Docker环境

需额外安装nvidia-container-toolkit，配置docker使用nvidia-runtime

1.3 Kubernetes环境

需额外安装对应的device-plugin，使得kubelet能感知到节点上的GPU设备

备注：一般在k8s环境，直接使用gpu-operator方案安装

二、K8S环境

2.1 K8S集群部署组件

2.1.1 gpu-device-plugin——管理GPU

gpu-device-plugin 以DaemonSet方式运行到集群各个节点，进行资源感知。感知节点上的GPU设备，上报到kube-apiserver，让K8S能够对节点上GPU设备进行管理。

2.1.2 gpu-exporter——监控GPU

gpu-exporter 同样以DaemonSet方式运行在集群各个节点上，进行监控数据采集与上报。以Prometheus支持的格式，采集并上报GPU设备支持的metrics监控指标，用于监控GPU。

2.2 Kubernetes调度GPU的工作流程

2.2.1 节

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

云原星域

关注关注

10
点赞
踩
12

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

k8spod使用gpu

ledrsnet的博客

11-03

4038

修改/etc/docker/daemon.json，增加default-runtime,runtimes配置.修改/etc/containerd/config.toml，如果文件不存在。describe node查看是否识别gpu。根据型号到这个网站查找驱动安装程序。查看pod是否正常启动。测试gpu pod启动。

k8s环境部署gpu以及CUDA兼容性分析

李姓门徒

05-02

2647

CUDA本质上就是NVIDIA专为通用高性能并行计算设计的一套计算平台和编程模型，换句话使用GPU并行编程的规范方法，所以CUDA在软件层面包含了众多库，那这里我们用一张图来简单阐述CUDA的各类运行时以及库的关系

1 条评论您还未登录，请先登录后发表或查看评论

在K8S上调度GPU资源

最新发布

日常分享linux运维知识

11-09

392

本文介绍了在Kubernetes中部署和使用GPU设备插件的方法。主要内容包括：1）通过DevicePlugins机制让Pod访问GPU资源，并说明GPU资源请求的限制条件；2）部署AMD GPU设备的步骤，需要预先安装驱动；3）部署NVIDIA GPU设备的详细流程，包括安装nvidia-docker2.0、配置运行时环境等；4）总结通过指定amd.com/gpu或nvidia.com/gpu资源请求来使用GPU。文章还提醒首次安装驱动后可不用重启服务器，但建议重启以避免意外情况。

Kubernetes 集成 Nvidia GPU （详细攻略）

u013149714的博客

11-09

1万+

Kubernetes 中已经实验性地支持管理多个节点上的 AMD / NVIDIA GPU (显卡)。本文重点介绍在k8s集群中，集成Nvidia显卡容器资源调度。

Kubernetes（K8s）集群中使用 GPU

保持热爱。

03-10

3775

在 Kubernetes（K8s）集群中使用 GPU，需要完成安装驱动、部署插件、配置 containerd、实现 GPU 虚拟化及部分使用等一系列步骤，下面为你详细介绍。

K8S使用NVIDIA GPU

学亮编程手记

03-13

1693

总的来说，需要安装驱动、docker、kubelet、NVIDIA device plugin等工具支持，然后使用带有NVIDIA GPU的容器进行测试。同时，Kubernetes可以自动地将GPU容器调度到支持GPU的节点上，以便最大化利用GPU资源。在Kubernetes中配置GPU资源，以便调度器可以正确地将容器调度到GPU节点上。安装nvidia-docker，以便在容器中访问GPU。在Kubernetes节点上安装NVIDIA GPU驱动，可以使用NVIDIA提供的官方安装脚本。

K8S中使用英伟达GPU

关于代码的那些事

06-14

1522

K8s-NVIDIA-Plugin是连接Kubernetes与NVIDIA GPU的关键组件，实现了容器化环境中GPU资源的统一管理。该插件通过DevicePlugin框架自动发现GPU硬件，支持整卡和MIG细粒度分配，并自动注入驱动与CUDA工具链。主要功能包括：GPU资源抽象为可调度单元、与容器运行时深度集成、提供监控指标等。典型应用场景涵盖AI训练、HPC计算和图形渲染。部署时需要预先安装NVIDIA驱动，配置容器运行时支持GPU挂载。

精选资源

GPU在docker和kubernetes中的使用

02-24

伴随着人工智能、机器学习、深度学习等技术的火热，GPU近年来也得到了快速的发展。GPU可以大大加快深度学习任务的运行速度。而像Tensflow这样的框架的出现和应用更是离不开对GPU资源的依赖。同时，GPU资源又是十分...

kubernetes 1.24 使用nvidia gpu 单机/集群

bing1zhi2的专栏

06-28

715

关swap 桥接的ipv4流量转到iptables：安装containerd 生成containerd默认配置并修改重启安装kubernetes组件,配置提前拉取镜像初始化配置这里是单结点尝试,需要Untaint the control plane.后续再加别的结点改回来也方便 2 nvidia 软件安装安装 nvidia-container-runtime 修改 /etc/containerd/config.toml 注意+号是添加的行,-是删除的安装helm3 查看

k8s中如何使用gpu、gpu资源讲解、nvidia gpu驱动安装

MssGuo的博客

10-12

1万+

gpu资源也是服务器中常见的一种资源，gpu即显卡，一般用在人工智能、图文识别、大模型等领域，其中nvidia gpu是nvidia公司生产的nvidia类型的显卡，amd gpu则是adm公司生产的amd类型gpu。企业中服务器最常见的就是英伟达gpu服务器了。本篇也主要讲解英伟达驱动相关的知识。

K8S调用GPU资源配置指南

热门推荐

不当初

06-10

1万+

该文档用于描述使用Kubernetes调用GPU资源的配置过程。文档会较为详细的描述在配置过程中遇到的问题和解决方式，并且会详细描述每个步骤的验证结果，该文档对于Kubernetes的使用以及GPU资源的理解有一定的辅助意义。在行文时主要描述了TensorFlow框架调用GPU、也有Pytorch调用GPU支持的过程，文档适用于运维人员、开发人员。配置过程的主要目标是实现通过yaml文件实现对于底层GPU资源的调度。为达到此目的，需要实现如下的目标： Docker 使用容器创建虚拟环境，以便将 Tens

k8sGPU指导

02-07

ExecStart=/opt/bin/kube-apiserver \ --insecure-bind-address=0.0.0.0 \ --insecure-port=8080 \ --etcd-servers=http://127.0.0.1:2379 \ --logtostderr=true \ --allow-privileged=false \ --service-cluster-ip-range=172.18.0.0/16 \ --admission-

K8s集群gpu支持（直通和vgpu）

qq_42152032的博客

06-22

5824

1-1v1.8之前的老版本:基于nvidia-docker实现(基本不用了,了解) 前期准备：1、nvidia driver 2、cuda 3、nvidia-docker K8s 启动pod时指定参数，即可使用gpu （1）alpha.kubernetes.io/nvidia-gpu 指定调用nvidia gpu的数量（2）为了能让GPU容器运行起来，需要将Nvidia驱动和CUDA库文件指定到容器中。这里需要使用hostPath，您只需要将hostPath指定到/var/lib/nvidia-do

K8S中使用英伟达GPU —— 筑梦之路

筑梦之路

08-15

1505

【代码】K8S中使用英伟达GPU —— 筑梦之路。

快速搭建GPU环境 | docker、k8s中使用gpu

weixin_48711696的博客

02-07

4371

device-plugin 以 DaemonSet 方式运行到集群各个节点，以感知节点上的 GPU 设备，从而让 k8s 能够对节点上的 GPU 设备进行管理。nvidia-container-runtime 在中间拦截了容器 spec，就可以把 gpu 相关配置添加进去，再传给 runC 的 spec 里面就包含 gpu 信息了。调用链从 containerd --> runC 变成 containerd --> nvidia-container-runtime --> runC。

【AI基础】K8S环境使用GPU--裸机环境（一）

qq_42567701的博客

01-03

825

安装对应的GPU Driver（GPU驱动），以及CUDA Toolkit至此，我们已完成裸机环境安装GPU驱动和CUDA Toolkit的过程，下篇文章将介绍如何在Docker环境安装及使用GPU，为创建AI应用做好准备~

如何在K8s集群中管理与使用GPU

slipegg的博客

11-19

3610

随着人工智能的兴起，GPU作为重要的智算算力类型愈发受到重视，而Kubernetes（k8s）作为业界主流的集群管理系统，如何方便管理、使用GPU也是其需要解决的一大问题，故此收集整理了K8s管理与使用GPU的相关资料以学习。

k8s使用gpu

2402_84069611的博客

08-06

504

三、修改containerd配置文件使用gpu容器运行时，二、安装nvidia-device-plugin插件。部署一个简易测试含gpu的pod。一、安装gpu容器运行时。

在Kubernetes（k8s）中使用GPU

小云的博客

12-10

4297

介绍Kubernetes 支持对节点上的 AMD 和 NVIDIA GPU （图形处理单元）进行管理，目前处于实验状态。修改docker配置文件root@hello:~# cat /etc...