AI时代下,学习如何使用和管理GPU是基础入门技能,本文以常见的NVIDIA GPU为例,介绍在普通机器、Docker和Kubernetes等不同的环境下如何使用和管理GPU。
一、概述
以常见的NVIDIA GPU为例,系统为Linux
1.1 裸机环境BMS
安装对应的GPU Driver(GPU驱动),以及CUDA Toolkit
1.2 Docker环境
需额外安装nvidia-container-toolkit,配置docker使用nvidia-runtime
1.3 Kubernetes环境
需额外安装对应的device-plugin,使得kubelet能感知到节点上的GPU设备
备注:一般在k8s环境,直接使用gpu-operator方案安装
二、K8S环境
2.1 K8S集群部署组件
2.1.1 gpu-device-plugin——管理GPU
gpu-device-plugin 以DaemonSet方式运行到集群各个节点,进行资源感知。感知节点上的GPU设备,上报到kube-apiserver,让K8S能够对节点上GPU设备进行管理。
2.1.2 gpu-exporter——监控GPU
gpu-exporter 同样以DaemonSet方式运行在集群各个节点上,进行监控数据采集与上报。以Prometheus支持的格式,采集并上报GPU设备支持的metrics监控指标,用于监控GPU。
不同环境下GPU的使用与管理

最低0.47元/天 解锁文章
4038

被折叠的 条评论
为什么被折叠?



