工作需要投入AI计算,用到3张T4显卡,
设备:“超聚合2288H V5”
ESXi版本:VMware ESXi, 6.7.0, 19195723
虚拟机操作系统:Ubuntu22.04
ESXi的安装过程略过,详细网上搜索就有,这里跳过。
设备的BIOS需要修改,否则会显示复数的显卡。
以下是“超聚合2288H V5”的iBMC修改方法,其他设备请自行查找处理。
打开BMC,进行BIOS配置页面
点击“高级配置”
找到“Advanced”
修改配置“PCIe ARI”,变更为:Enable
保存退出BIOS,并重启设备。
二、修改切换显卡为直通模式
打开主机控制台(注意是进入主机https://x.x.x.x ,而非vCenter)
三、创建虚拟机
1、创建虚拟机,并添加显卡
2、这里有一个非常不显眼的问题,如果一次性添加复数显卡时,默认每次添加都会是同一张显卡的ID,必须要手动选择显卡,并确保每一个PCI的ID号都不一样。
对应的错误是无法开机和提示:指定了重复的 pciPassthru1.id 条目,59:0.0 已注册。
3、以下是网络搜索未测试是否有影响的本个配置:
名称:hypervisor.cpuid.v0 值:FALSE
三、驱动安装
1、驱动下载链接: Unix Drivers | NVIDIA #按需下载
2、本次安装的版本是:560.35.03
3、上传驱动到设备,添加权限:
chmod +x NVIDIA-Linux-x86_64-560.35.03.run
4、删除本地默认驱动
sudo apt purge nvidia*
5、禁用自带的nouveau nvidia驱动
sudo vi /etc/modprobe.d/blacklist.conf
最后行后添加
blacklist nouveau
options nouveau modeset=0
6、重建initramfs,并重启设备
sudo update-initramfs -u
sudo reboot
7、检查nouveau驱动是否删除成功
lsmod | grep nouveau
8、执行安装
sudo ./NVIDIA-Linux-x86_64-560.35.03.run -no-nouveau-check -no-opengl-files
9、安装过程
1)选择MIT/GPL
2)选择Contiue installion
3)安装32位的lib,选择NO
10、安装完成查看驱动