k8s 调度GPU 介绍

目录

  • 一、GPU 调度简介
    • 1. 背景
    • 2. 研究现状
  • 二、术语介绍
    • 1. GPU
    • 2. CUDA
    • 3. 流处理器
    • 4. 显存调度
    • 5. 显存隔离
    • 6. 算力隔离
  • 三、GPU 共享调度方案
    • 1. 腾讯 GaiaGPU
    • 2. 腾讯 qGPU
    • 3. NVIDIA – deploying-nvidia-gpu-device-plugin
    • 4. GPU MOUNTER
    • 5. 阿里 GPU Sharing
    • 6. 阿里 cGPU(container GPU)
  • 四、共享调度方案对比

一、GPU 调度简介

1. 背景

  众所周知,当前对于深度学习的研究十分火热,如果想要取得好的效果,除了数据和算法两个要素外,强大的算力也是必不可少的。但由于目前主流的 NVIDIA GPU 比较昂贵,并且一般情况下独占卡的模式会对 GPU 这种宝贵的计算资源造成浪费,即不同用户对模型的理解深度不同,导致申请了独立的卡却没有把资源用满。因此,为了解决上述问题,通过 GPU 共享的虚拟化技术来提高资源利用率也逐渐成为当下的研究热点

2. 研究现状

从学术界和工业界的一些实现方式来看,GPU 共享的基本原理主要分为以下两部分:

  • 资源隔离:限制程序使用的 GPU 核数和显存,常见的思路就是劫持调用,具体可以分为用户态劫持或内核态劫持。
  • 并行模式:共享 GPU 情况下应用程序应该能够并行执行,有类似 CPU 的时间片模式和 MPS 模式。

从用户的使用角度来看,GPU 共享这种虚拟化技术主要体现在虚拟机层面和容器层面:

  • 虚拟机层面:将 GPU 硬件设备分割成很多虚拟 GPU 并映射到虚机里面,如 NVIDIA vGPU。
  • 容器层面:容器的本质还是进程,通过对驱动的某些关键接口进行封装劫持从而达到限制进程资源的目的,如 Gaia GPU 和 cGPU 等。

二、术语介绍

1. GPU

  GPU 图形处理器(graphics processing unit),又称显示核心、视觉处理器、显示芯片,是一种专门在个人电脑、工作站、游戏机和一些移动设备(如平板电脑、智能手机等)上做图像和图形相关运算工作的微处理器。我们日常讨论 GPU 和显卡时,经常混为一谈,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值