NVIDIA A100安装Fabric-manager基于ubuntu

且漫CN

已于 2025-01-09 14:26:25 修改

阅读量1.1k

点赞数 5

文章标签： ubuntu

于 2024-12-30 14:14:06 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/u010006102/article/details/144825053

版权

linux下NVLink版NVIDIA A100安装Fabric-manager的方法

问题：H100 A100 Error 802: system CUDA initialization: Unexpected error from cudaGetDeviceCount().

安装fabricmanager
问题：print(torch.cuda.is_available())报错但是CUDA和cudnn都安装完成，版本对应良好，报错如下

UserWarning: CUDA initialization: Unexpected error from cudaGetDeviceCount(). Did you run some cuda functions before calling NumCudaDevices() that might have already set an error? Error 802: system not yet initialized (Triggered internally at …/c10/cuda/CUDAFunctions.cpp:109.)
return torch._C._cuda_getDeviceCount() > 0

解释：NVIDIA NVLink A100 GPU卡，需额外安装与驱动版本对应的 nvidia-fabricmanager 服务使 GPU 卡间能够互联通过NVSwitch互联，如果仅安装NVIDIA GPU 驱动程序，会导致GPU不能正常使用。安装步骤如下:

网站下载对应驱动版本的fabricmanager:Index of /compute/cuda/repos/ubuntu2204/x86_64 (nvidia.cn)
下载地址： nvidia-fabricmanager

版本号就是驱动版本

查看驱动版本

nvidia-smi

手动安装

sudo apt-get install ./nvidia-fabricmanager-535_535.104.05-1_amd64.deb

解除禁用

sudo systemctl enable nvidia-fabricmanager

重启

sudo systemctl restart nvidia-fabricmanager

检查状态

sudo systemctl status nvidia-fabricmanager

问题：couldn’t be accessed by user ‘_apt’. - pkgAcquire::Run (13: Permission denied)

解决：

 chown _apt /var/lib/update-notifier/package-data-downloads/partial/

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

且漫CN 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。