1. ofed驱动卸载
执行:
/usr/sbin/ofed_uninstall.sh
2.ofed驱动安装
官网下载tar文件
https://network.nvidia.com/products/infiniband-drivers/linux/mlnx_ofed/
解压缩:
tar -xvf xxx.tar.gz
进入文件夹:
cd MLNX_OFED_LINUX-xxxx-x86_64
执行安装,且支持当前内核
sudo ./mlnxofedinstall --add-kernel-support
安装成功后
sudo /etc/init.d/openibd restart
检查:
sudo hca_self_test.ofed # results should be “PASS”
参考
https://blog.youkuaiyun.com/debimeng/article/details/75270957
GPU显卡驱动安装
- 官网下载:https://www.nvidia.cn/Download/index.aspx?lang=cn 选择对应的cuda以及GPU型号版本
- lsmod | grep nouveau 检测系统自带的驱动,需要禁止
- chmod +x NVIDIA-Linux-x86_64-515.105.01.run
- sh NVIDIA-Linux-x86_64-515.105.01.run -no-opengl-files -no-nouveau-check