【AI算力平台】算力高效调度策略——GPU调度

概述

作为AI算力平台,如何高效调度GPU资源,使其利用率最大化,是必须回答的一个问题。

本文以CCE集群+Volcano调度器为例,介绍常见的GPU调度策略及其使用场景

一、GPU整卡调度

  • GPU整卡:表示GPU整卡调度,即该容器将独立使用GPU卡,系统不会将该卡划分给其他容器使用。

  • nvidia.com/gpu设置为整数:表示GPU整卡调度

    即该容器将独占使用一张物理GPU卡,系统不会将该卡划分给其他容器使用,适用于对资源性能和隔离要求高的场景。

二、GPU虚拟化

CCE GPU虚拟化采用自研xGPU虚拟化技术,能够动态对GPU设备显存与算力进行划分。

单个GPU卡最多虚拟化成20个GPU虚拟设备。

2.1 GPU虚拟化优势

  • 灵活性:算力分配粒度为5%GPU,显存分配粒度达MiB级别。

  • 隔离性:支持显存和算力的严格隔离,支持单显存隔离,算力与显存同时隔离两类场景

2.2 限制条件

  • 单个GPU卡最多虚拟化成20个GPU虚拟设备。

  • init容器不支持使用GPU虚拟化资源。

  • 单个GPU卡仅支持调度同一种隔离模式的工作负载。

  • 容器内应用程序初始化时,通过nvidia-smi监测工具监测到的实时算力可能超过容器可用的算力上限。

  • GPU虚拟化的算显隔离功能在渲染场景无法使用,渲染场景请使用整卡模式或显存隔离模式。

  • 节点上开启了GPU虚拟化且有多张GPU卡时,如果GPU资源不足,不支持抢占

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值