ESXi6.7 + 虚拟机Ubuntu22.04 安装Tesla T4 驱动(PCI直通)

工作需要投入AI计算,用到3张T4显卡,

设备:“超聚合2288H V5”

ESXi版本:VMware ESXi, 6.7.0, 19195723

虚拟机操作系统:Ubuntu22.04

ESXi的安装过程略过,详细网上搜索就有,这里跳过。

设备的BIOS需要修改,否则会显示复数的显卡。

以下是“超聚合2288H V5”的iBMC修改方法,其他设备请自行查找处理。

打开BMC,进行BIOS配置页面

点击“高级配置”

找到“Advanced”

修改配置“PCIe ARI”,变更为:Enable

保存退出BIOS,并重启设备。

二、修改切换显卡为直通模式

打开主机控制台(注意是进入主机https://x.x.x.x ,而非vCenter)

三、创建虚拟机

1、创建虚拟机,并添加显卡

2、这里有一个非常不显眼的问题,如果一次性添加复数显卡时,默认每次添加都会是同一张显卡的ID,必须要手动选择显卡,并确保每一个PCI的ID号都不一样。

对应的错误是无法开机和提示:指定了重复的 pciPassthru1.id 条目,59:0.0 已注册。

3、以下是网络搜索未测试是否有影响的本个配置:

名称:hypervisor.cpuid.v0       值:FALSE

三、驱动安装

1、驱动下载链接: Unix Drivers | NVIDIA   #按需下载

2、本次安装的版本是:560.35.03

3、上传驱动到设备,添加权限:

chmod +x NVIDIA-Linux-x86_64-560.35.03.run

4、删除本地默认驱动

sudo apt purge nvidia*


5、禁用自带的nouveau nvidia驱动

sudo vi /etc/modprobe.d/blacklist.conf 
最后行后添加

blacklist nouveau 
options nouveau modeset=0 


6、重建initramfs,并重启设备

sudo update-initramfs -u

sudo reboot

7、检查nouveau驱动是否删除成功

lsmod | grep nouveau


8、执行安装

sudo ./NVIDIA-Linux-x86_64-560.35.03.run -no-nouveau-check -no-opengl-files

9、安装过程

1)选择MIT/GPL

2)选择Contiue installion

3)安装32位的lib,选择NO

10、安装完成查看驱动

<think>嗯,用户问的是如何在VMware中为Ubuntu配置和使用GPU。首先,我需要回忆一下VMware的虚拟化技术是否支持GPU直通或者虚拟化。记得VMware ESXi支持PCI设备直通,也就是vGPU或者直接分配物理GPU给虚拟机。不过用户可能是在使用Workstation或者其他产品,但根据引用[1]里提到的是ESXi,所以应该以ESXi环境为主。 然后,用户的操作系统是Ubuntu,需要确认支持的版本。引用[1]提到TKG Ubuntu模板,可能是指特定版本的Ubuntu。需要检查ESXi的版本是否兼容,以及Ubuntu的版本是否在支持列表中。比如引用[1]说当前不支持v1.22+,OS只支持Ubuntu,这可能是指Kubernetes的版本,但可能影响GPU驱动安装。 接下来,步骤应该是先确认硬件兼容性,比如服务器是否有NVIDIA T4 GPU卡,然后在ESXi中启用PCI直通。这部分需要指导用户如何进入ESXi的管理界面,找到PCI设备,并启用直通。然后安装虚拟机,选择Ubuntu,并添加PCI设备。 安装完成后,虚拟机中的Ubuntu需要安装NVIDIA驱动。可能需要下载官方驱动,或者使用apt仓库。这里要提醒用户注意驱动版本与内核版本的兼容性。安装完成后,用nvidia-smi命令验证。 另外,引用[2]提到Kubernetes中共享GPU的技术,如果用户是要在K8s中使用GPU,可能需要额外的步骤,比如安装设备插件或者使用Bitfusion。但用户的问题可能集中在基础配置,所以这部分可以作为扩展内容提到。 还需要注意,VMware Tools的安装可能对性能有帮助,确保虚拟机优化。测试阶段,运行一些GPU密集型任务来验证性能。 可能遇到的问题包括直通后宿主机无法使用GPU,需要重启ESXi驱动安装失败,需要关闭Secure Boot或者安装依赖库;CUDA兼容性问题,需确认驱动版本支持CUDA版本。 最后,生成相关问题时要覆盖硬件兼容性、驱动安装、多虚拟机共享、监控工具、性能优化和容器化使用等方向。</think>### 逐步说明:在 VMware 中为 Ubuntu 配置和使用 GPU #### 1. **确认硬件与虚拟化平台兼容性** - **ESXi 版本要求**:需使用 VMware ESXi 6.7 及以上版本(推荐 7.0+),支持 PCI 设备直通功能[^1]。 - **GPU 型号支持**:需使用 NVIDIA Tesla T4 或 Quadro 系列等企业级 GPU(消费级 GPU 可能因驱动限制无法正常工作)。 - **Ubuntu 版本**:需使用 TKG Ubuntu 模板或官方支持的 LTS 版本(如 20.04/22.04)。 #### 2. **在 ESXi 中启用 GPU 直通** - 登录 ESXi 管理界面,进入 **主机 > 硬件 > PCI 设备**。 - 找到目标 GPU 设备,点击 **切换直通** 启用。 - **重启 ESXi 主机** 使配置生效。 #### 3. **为 Ubuntu 虚拟机分配 GPU** - 创建虚拟机时选择 **Ubuntu Linux 64 位** 操作系统类型。 - 在虚拟机设置中添加 PCI 设备:**编辑虚拟机 > 添加其他设备 > PCI 设备**,选择已启用直通的 GPU。 - 配置虚拟机硬件兼容性为 **ESXi 7.0 或更高版本**。 #### 4. **安装 NVIDIA 驱动程序** ```bash # 更新系统并安装编译依赖 sudo apt update && sudo apt install build-essential dkms # 禁用默认开源驱动(nouveau) echo "blacklist nouveau" | sudo tee /etc/modprobe.d/blacklist-nvidia-nouveau.conf sudo update-initramfs -u # 重启后安装官方驱动 sudo apt install nvidia-driver-535 # 根据 GPU 型号选择版本 sudo reboot ``` #### 5. **验证 GPU 状态** ```bash nvidia-smi # 应显示 GPU 型号、驱动版本和运行状态 ``` #### 6. **高级配置(可选)** - **Kubernetes 集成**:通过 vGPU 或 Bitfusion 实现 GPU 资源共享[^2]。 - **CUDA 工具包安装**: ```bash sudo apt install nvidia-cuda-toolkit nvcc --version # 验证 CUDA 版本 ``` ### 常见问题排查 | 问题现象 | 解决方案 | |-------------------------|-----------------------------| | `nvidia-smi` 无输出 | 检查直通状态,确认驱动版本匹配 | | 虚拟机启动黑屏 | 关闭 EFI Secure Boot | | CUDA 报错 | 验证驱动与 CUDA 版本兼容性 |
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值