关于FusionCompute中Ubuntu16.04.5 Server虚拟机安装Nvidia T4 GPU卡

环境如下:

        华为FusionCompute,采用虚拟机GPU直通的方式进行部署4块T4卡,全部资源关联给一台虚拟机;

        使用的英伟达驱动版本为:NVIDIA-Linux-x86_64-410.104.run

坑点在于:

        虚拟化平台本来是6.3.1版本,得知如需使用T4卡,虚拟化平台需升级到8.0.0;后经过评审流程,最终实施升级到了最新8.0.0;但是

我算法平台测试版本为Ubuntu16.04.1 Desktop,经查,虚拟化版本不支持此操作系统,只支持Windows系统相关操作系统,GPU资源组

关联不了测试虚拟机,此刻心中一万个羊驼奔腾而过;继续联系华为处理,后终于得知,版本Ubuntu16.04.5 Server内部测试过可行,

赶紧和算法厂家进行沟通,得知算法平台也支持之后,又在线对虚拟化平台VRM和CNA平台进行了插件升级,终于Ubuntu16.04.5

Server关联到了GPU资源组;

        接下来就是安装驱动了!对了,在安装Ubuntu16.04.5时,记得勾选openssh(自己下openssh安装包,老是安装错误)!

        将NVIDIA-Linux-x86_64-410.104.run传入/root下

        首先需要禁用nouveau;

        1.添加conf 文件:cat /etc/modprobe.d/blacklist-nouveau.conf

        blacklist nouveau

        options nouveau modeset=0

        2. 重新生成 kernel initramfs:
        update-initramfs -u

        3. 重启:
        reboot

        接下来安装驱动;

        chmod -x NVIDIA-Linux-x86_64-410.104.run

        sh NVIDIA-Linux-x86_64-410.104.run

        安装错误,提醒缺少GCC,此为离线安装,无法上网;也下载了gcc5.4.0,但是安装时依旧报错,最后干脆将镜像挂载,以下参考大神;

        关于ubuntu server装上后没有make gcc等的方法_ubuntu gcc 13_竺蠡的博客-优快云博客

        这里感谢博主解决了一下大问题!

        安装gcc、make后!安装nvidia驱动正常!

       

       不容易啊,撒花。。。。结束!

<think>嗯,用户问的是如何在VMware中为Ubuntu配置和使用GPU。首先,我需要回忆一下VMware的虚拟化技术是否支持GPU直通或者虚拟化。记得VMware ESXi支持PCI设备直通,也就是vGPU或者直接分配物理GPU虚拟机。不过用户可能是在使用Workstation或者其他产品,但根据引用[1]里提到的是ESXi,所以应该以ESXi环境为主。 然后,用户的操作系统是Ubuntu,需要确认支持的版本。引用[1]提到TKG Ubuntu模板,可能是指特定版本的Ubuntu。需要检查ESXi的版本是否兼容,以及Ubuntu的版本是否在支持列表中。比如引用[1]说当前不支持v1.22+,OS只支持Ubuntu,这可能是指Kubernetes的版本,但可能影响GPU驱动的安装。 接下来,步骤应该是先确认硬件兼容性,比如服务器是否有NVIDIA T4 GPU,然后在ESXi中启用PCI直通。这部分需要指导用户如何进入ESXi的管理界面,找到PCI设备,并启用直通。然后安装虚拟机,选择Ubuntu,并添加PCI设备。 安装完成后,虚拟机中的Ubuntu需要安装NVIDIA驱动。可能需要下载官方驱动,或者使用apt仓库。这里要提醒用户注意驱动版本与内核版本的兼容性。安装完成后,用nvidia-smi命令验证。 另外,引用[2]提到Kubernetes中共享GPU的技术,如果用户是要在K8s中使用GPU,可能需要额外的步骤,比如安装设备插件或者使用Bitfusion。但用户的问题可能集中在基础配置,所以这部分可以作为扩展内容提到。 还需要注意,VMware Tools的安装可能对性能有帮助,确保虚拟机优化。测试阶段,运行一些GPU密集型任务来验证性能。 可能遇到的问题包括直通后宿主机无法使用GPU,需要重启ESXi;驱动安装失败,需要关闭Secure Boot或者安装依赖库;CUDA兼容性问题,需确认驱动版本支持CUDA版本。 最后,生成相关问题时要覆盖硬件兼容性、驱动安装、多虚拟机共享、监控工具、性能优化和容器化使用等方向。</think>### 逐步说明:在 VMware 中为 Ubuntu 配置和使用 GPU #### 1. **确认硬件与虚拟化平台兼容性** - **ESXi 版本要求**:需使用 VMware ESXi 6.7 及以上版本(推荐 7.0+),支持 PCI 设备直通功能[^1]。 - **GPU 型号支持**:需使用 NVIDIA Tesla T4 或 Quadro 系列等企业级 GPU(消费级 GPU 可能因驱动限制无法正常工作)。 - **Ubuntu 版本**:需使用 TKG Ubuntu 模板或官方支持的 LTS 版本(如 20.04/22.04)。 #### 2. **在 ESXi 中启用 GPU 直通** - 登录 ESXi 管理界面,进入 **主机 > 硬件 > PCI 设备**。 - 找到目标 GPU 设备,点击 **切换直通** 启用。 - **重启 ESXi 主机** 使配置生效。 #### 3. **为 Ubuntu 虚拟机分配 GPU** - 创建虚拟机时选择 **Ubuntu Linux 64 位** 操作系统类型。 - 在虚拟机设置中添加 PCI 设备:**编辑虚拟机 > 添加其他设备 > PCI 设备**,选择已启用直通的 GPU。 - 配置虚拟机硬件兼容性为 **ESXi 7.0 或更高版本**。 #### 4. **安装 NVIDIA 驱动程序** ```bash # 更新系统并安装编译依赖 sudo apt update && sudo apt install build-essential dkms # 禁用默认开源驱动(nouveau) echo "blacklist nouveau" | sudo tee /etc/modprobe.d/blacklist-nvidia-nouveau.conf sudo update-initramfs -u # 重启后安装官方驱动 sudo apt install nvidia-driver-535 # 根据 GPU 型号选择版本 sudo reboot ``` #### 5. **验证 GPU 状态** ```bash nvidia-smi # 应显示 GPU 型号、驱动版本和运行状态 ``` #### 6. **高级配置(可选)** - **Kubernetes 集成**:通过 vGPU 或 Bitfusion 实现 GPU 资源共享[^2]。 - **CUDA 工具包安装**: ```bash sudo apt install nvidia-cuda-toolkit nvcc --version # 验证 CUDA 版本 ``` ### 常见问题排查 | 问题现象 | 解决方案 | |-------------------------|-----------------------------| | `nvidia-smi` 无输出 | 检查直通状态,确认驱动版本匹配 | | 虚拟机启动黑屏 | 关闭 EFI Secure Boot | | CUDA 报错 | 验证驱动与 CUDA 版本兼容性 |
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值