layout: post
title: OpenStack GPU直通服务器
catalog: true
tag: [OpenStack, GPU]
1. 概述
直通GPU 云服务器(GPU Virtual Machine)是基于 GPU 的快速、稳定、弹性的计算服务,主要应用于深度学习训练\推理、图形图像处理以及科学计算等场景。
直通GPU 云服务器提供和标准 云服务器一致的方便快捷的管理方式,相对于vGPU云服务器,直通GPU使用的PCI透传技术能带来几乎和物理设备同等的性能。
2. 直通GPU特性
直通GPU具备以下产品特点
- 租户独享物理GPU,可利用几乎与物理设备同等的性能。
- 直通GPU 云服务器位于云内部网络,内网时延低,提供优秀的计算能力。
3. 功能说明
3.1. 操作系统支持
直通GPU云服务器支持Windows和Linux操作系统。
3.2. 设备支持
支持主流厂商PCI插槽的GPU卡。
4. 实现方案
直通GPU云服务器采用了PCI Passthrough技术,将宿主机上某个PCI槽位透传给虚拟机使用,GPU卡即安装在PCI卡槽上,如下图:

PCI直通特性允许虚拟机完全访问与直接控制物理PCI设备。此机制对任何类型的PCI设备都是通用的,并且可以与网络接口卡(NIC),
图形处理单元(GPU)或可以连接到PCI总线的任何其他设备一起运行,在PCI直通的情况下,整个物理设备只能分配给一个虚拟机,并且不能共享。
各组件的关系如下:

5. 部署方案
5.1. 示例环境说明
| 组件 | 版本 | 备注 |
|---|---|---|
| GPU | NVIDIA A100 | |
| 操作系统版本 | CentOS Linux release 7.8.2003 (Core) | |
| 内核版本 | 3.10.0-1127.el7.x86_64 | |
| OpenStack版本 | Train |
5.2. 上线步骤
5.2.1. 硬件安装
按照相关指导安装显卡至计算节点
如有问题需要向显卡厂商寻求协助
注:英伟达服务器支持列表:
https://www.nvidia.com/object/vgpu-certified-servers.html
一般情况下,单独划分GPU AZ,如果存在不同型号的GPU,则划分更新的AZ。
5.2.2. GPU计算节点主机配置
5.2.2.1. IOMMU设置
5.2.2.1.1. BIOS设置
在BIOS中enable VT-x, VT-d, Onboard VGA. Onboard VGA 的enable可以避免一些错误的出现,具体参考Not only for miners GPU integration in Nova environment.
5.2.2.1.2. grab设置
编辑文件 /etc/default/grub
如果没有
GRUB_CMDLINE_LINUX_DEFAULT则编辑GRUB_CMDLINE_LINUX
对于Intel芯片:GRUB_CMDLINE_LINUX_DEFAULT=“intel_iommu=on”
对于AMD芯片:GRUB_CMDLINE_LINUX_DEFAULT=“iommu=pt

本文详细介绍了OpenStack环境下实现GPU直通的技术特性,包括操作系统支持、设备兼容性和部署步骤,如BIOS设置、IOMMU配置、vfio模块的使用,以及OpenStack配置和GPU云服务器的验证。此外,还讨论了NVIDIA显卡的兼容性问题和解决方法。
最低0.47元/天 解锁文章
9784

被折叠的 条评论
为什么被折叠?



