【AI基础】K8S环境使用GPU--Kubernetes环境(三)

不同环境下GPU的使用与管理

AI时代下,学习如何使用和管理GPU是基础入门技能,本文以常见的NVIDIA GPU为例,介绍在普通机器、Docker和Kubernetes等不同的环境下如何使用和管理GPU。

一、概述

以常见的NVIDIA GPU为例,系统为Linux

1.1 裸机环境BMS

安装对应的GPU Driver(GPU驱动),以及CUDA Toolkit

1.2 Docker环境

需额外安装nvidia-container-toolkit,配置docker使用nvidia-runtime

1.3 Kubernetes环境

需额外安装对应的device-plugin,使得kubelet能感知到节点上的GPU设备

备注:一般在k8s环境,直接使用gpu-operator方案安装

二、K8S环境

2.1 K8S集群部署组件

2.1.1 gpu-device-plugin——管理GPU

gpu-device-plugin 以DaemonSet方式运行到集群各个节点,进行资源感知。感知节点上的GPU设备,上报到kube-apiserver,让K8S能够对节点上GPU设备进行管理。

2.1.2 gpu-exporter——监控GPU

gpu-exporter 同样以DaemonSet方式运行在集群各个节点上,进行监控数据采集与上报。以Prometheus支持的格式,采集并上报GPU设备支持的metrics监控指标,用于监控GPU。

2.2 Kubernetes调度GPU的工作流程

2.2.1 节

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值