NVIDIA A100安装Fabric-manager基于ubuntu

linux下NVLink版NVIDIA A100安装Fabric-manager的方法

问题:H100 A100 Error 802: system CUDA initialization: Unexpected error from cudaGetDeviceCount().

安装fabricmanager
问题:print(torch.cuda.is_available())报错但是CUDA和cudnn都安装完成,版本对应良好,报错如下

UserWarning: CUDA initialization: Unexpected error from cudaGetDeviceCount(). Did you run some cuda functions before calling NumCudaDevices() that might have already set an error? Error 802: system not yet initialized (Triggered internally at …/c10/cuda/CUDAFunctions.cpp:109.)
return torch._C._cuda_getDeviceCount() > 0

解释:NVIDIA NVLink A100 GPU卡,需额外安装与驱动版本对应的 nvidia-fabricmanager 服务使 GPU 卡间能够互联通过NVSwitch互联,如果仅安装NVIDIA GPU 驱动程序,会导致GPU不能正常使用。安装步骤如下:

网站下载对应驱动版本的fabricmanager:Index of /compute/cuda/repos/ubuntu2204/x86_64 (nvidia.cn)
下载地址: nvidia-fabricmanager

版本号就是驱动版本

  • 查看驱动版本
nvidia-smi
  • 手动安装
sudo apt-get install ./nvidia-fabricmanager-535_535.104.05-1_amd64.deb
  • 解除禁用
sudo systemctl enable nvidia-fabricmanager
  • 重启
sudo systemctl restart nvidia-fabricmanager
  • 检查状态
sudo systemctl status nvidia-fabricmanager

问题:couldn’t be accessed by user ‘_apt’. - pkgAcquire::Run (13: Permission denied)

解决:

 chown _apt /var/lib/update-notifier/package-data-downloads/partial/
### 安装 A100 GPU 驱动程序 #### 准备工作 为了确保顺利安装 A100 GPU 的驱动程序,在开始之前需要更新系统的软件包列表以及安装必要的编译工具。这可以通过执行以下命令来完成: ```bash sudo apt-get update sudo apt-get install g++ sudo apt-get install gcc sudo apt-get install make ``` 这些操作可以为后续的驱动安装打下良好的基础[^3]。 #### 停止相关服务 在安装新的驱动前,建议先停止与 GPU 相关的服务以避免冲突。例如,如果系统中有 CUDA 服务正在运行,则应通过 `systemctl` 来停止它: ```bash sudo systemctl stop cuda ``` 此步骤有助于防止现有进程干扰新驱动的安装过程[^2]。 #### 卸载旧版驱动 如果有之前的 NVIDIA 驱动已经存在于系统中,那么应该先将其移除再继续下一步骤。卸载可通过启动已下载的官方驱动安装脚本并附加特定参数实现: ```bash sudo ./NVIDIA-Linux-x86_64-515.77.04.run --uninstall ``` 该指令会清理掉任何残留的老版本组件,从而减少潜在兼容性问题的发生几率。 #### 获取最新驱动 前往[NVIDIA官方网站](https://www.nvidia.com/en-us/)获取最新的 Linux 版本 A100 驱动程序。按照页面提示选择合适的选项后点击下载链接保存文件到本地计算机上。对于大多数情况而言,默认设置即可满足需求;但如果存在特殊硬件环境则可能需进一步调整配置项。 #### 执行驱动安装 当准备好所需的 .run 文件之后就可以正式开始了——赋予其可执行权限并将之作为超级用户身份运行: ```bash chmod +x NVIDIA-Linux-x86_64-515.77.04.run sudo ./NVIDIA-Linux-x86_64-515.77.04.run ``` 在整个过程中遵循屏幕上的指示逐步前进直至结束。通常情况下默认的选择就足够了,除非有特别的需求才考虑自定义化设定。 #### 启动所需服务 一旦顺利完成上述所有环节的工作,最后一步就是重新激活那些先前被关闭的服务项目以便正常使用刚装好的设备特性: ```bash sudo systemctl start cuda ``` 此时应当能够正常调用 GPU 资源来进行各种运算任务了。 #### 验证安装成果 要检验整个流程是否成功完成了预期目标,最简单的方式莫过于借助于 nvidia-smi 工具查询当前连接着多少张显卡及其状态信息: ```bash nvidia-smi ``` 这条简单的命令可以帮助确认一切运作良好,并显示出有关所使用的具体型号以及其他重要细节的数据表单。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

且漫CN

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值