从GPU虚拟化到池化

最新推荐文章于 2025-03-09 20:05:56 发布

罗伯特之技术屋

最新推荐文章于 2025-03-09 20:05:56 发布

阅读量987

点赞数 24

分类专栏： VIP专栏文章标签：自动化架构

本文链接：https://blog.youkuaiyun.com/weixin_57147647/article/details/139720872

版权

【摘要】随着大模型的兴起，对GPU算力的需求越来越多，而当前现实情况使企业往往受限于有限的GPU卡资源，即便进行了虚拟化，往往也难以充分使用GPU卡资源或持续使用资源。为解决GPU算力资源不均衡等问题，同时支持GPU算力的国产化替代，提升GPU资源的利用率，GPU算力池化需求迫在眉睫。本文分享了GPU设备虚拟化的几种路线、GPU虚拟化和共享方案以及GPU算力池化云原生实现。

智能化应用如人脸识别、语音识别、文本识别、智能推荐、智能客服、智能风控等已广泛应用于各行各业，这些应用被称为判定式AI的范畴，通常和特定的业务场景相绑定，因此在使用GPU（Graphics Processing Unit）卡的时候也通常各自独立，未考虑业务间GPU共享能力，至多实现vGPU 虚拟化切分，从而一张物理GPU卡虚拟出多张vGPU，可以运行多个判定式AI 应用。随着大模型的兴起，对GPU算力的需求越来越多，而当前现实情况使企业往往受限于有限的GPU卡资源，难以支撑众多的业务需求，同时由于业务特性等，即便进行了虚拟化，往往难以充分使用GPU卡资源或持续使用资源，从而也造成有限的卡资源也无法有效利用。

从GPU虚拟化需求到池化需求

智能化应用数量的增长对GPU算力资源的需求越来越多。NVIDIA虽然提供了GPU虚拟化和多GPU实例切分方案等，依然无法满足自由定义虚拟GPU和整个企业GPU资源的共享复用需求。TensorFlow、Pytorch等智能化应用框架开发的应用往往会独占一张GPU整卡（AntMan框架是为共享的形式设计的），从而使GPU卡短缺，另一方面，大部分应用却只使用卡的一小部分资源，例如身份证识别、票据识别、语音识别、投研分析等推理场景，这些场景GPU卡的利用率都比较低，没有业务请求时利用率甚至是0%，有算力却受限于卡的有限数量。单个推理场景占用一张卡造成很大浪费，和卡数量不足形成矛盾，因此，算力切分是目前很多场景的基本需求。再者，往往受限于组织架构等因素，GPU由各团队自行采购和使用，算力资源形成孤岛，分布不均衡，有的团队GPU资源空闲，有团队无卡可用。

为解决GPU算力资源不均衡等问题，同时支持GPU算力的国产化替代，协调在线和离线资源需求、业务高峰和低峰资源需求、训练和推理、以及开发、测试、生产环境对资源