概述
作为AI算力平台,如何高效调度GPU资源,使其利用率最大化,是必须回答的一个问题。
本文以CCE集群+Volcano调度器为例,介绍常见的GPU调度策略及其使用场景
一、GPU整卡调度
-
GPU整卡:表示GPU整卡调度,即该容器将独立使用GPU卡,系统不会将该卡划分给其他容器使用。
-
nvidia.com/gpu设置为整数:表示GPU整卡调度
即该容器将独占使用一张物理GPU卡,系统不会将该卡划分给其他容器使用,适用于对资源性能和隔离要求高的场景。
二、GPU虚拟化
CCE GPU虚拟化采用自研xGPU虚拟化技术,能够动态对GPU设备显存与算力进行划分。
单个GPU卡最多虚拟化成20个GPU虚拟设备。
2.1 GPU虚拟化优势
-
灵活性:算力分配粒度为5%GPU,显存分配粒度达MiB级别。
-
隔离性:支持显存和算力的严格隔离,支持单显存隔离,算力与显存同时隔离两类场景
2.2 限制条件
-
单个GPU卡最多虚拟化成20个GPU虚拟设备。
-
init容器不支持使用GPU虚拟化资源。
-
单个GPU卡仅支持调度同一种隔离模式的工作负载。
-
容器内应用程序初始化时,通过nvidia-smi监测工具监测到的实时算力可能超过容器可用的算力上限。
-
GPU虚拟化的算显隔离功能在渲染场景无法使用,渲染场景请使用整卡模式或显存隔离模式。
-
节点上开启了GPU虚拟化且有多张GPU卡时,如果GPU资源不足,不支持抢占

最低0.47元/天 解锁文章
2351

被折叠的 条评论
为什么被折叠?



