linux nvidia 11.8 安装记录

最新推荐文章于 2024-12-19 16:56:43 发布

原创最新推荐文章于 2024-12-19 16:56:43 发布 · 4.2k 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#linux #运维 #服务器 #cuda

Linux 专栏收录该内容

7 篇文章

订阅专栏

本文档详细介绍了在CentOS 7上安装CUDA 11.8的步骤，并提供了安装完成后遇到的`nvidia-smi`错误的解决方法，包括重启和不重启两种方案。在不重启的情况下，需要通过`lsof`找出占用GPU的进程并杀掉，然后移除旧的内核模块，最后启用`nvidia-persistenced`服务来保持GPU状态。

部署运行你感兴趣的模型镜像

1. 安装参考官方链接

https://developer.nvidia.com/cuda-downloads
选择自己对应的操作系统即可

1.1 从网页中保留的 centos7 cuda 11.8 安装命令

wget https://developer.download.nvidia.com/compute/cuda/11.8.0/local_installers/cuda-repo-rhel7-11-8-local-11.8.0_520.61.05-1.x86_64.rpm
sudo rpm -i cuda-repo-rhel7-11-8-local-11.8.0_520.61.05-1.x86_64.rpm
sudo yum clean all
sudo yum -y install nvidia-driver-latest-dkms
sudo yum -y install cuda

2. 安装完成之后

执行nvidia-smi如果出现 Failed to initialize NVML: Driver/library version mismatch
(就是和原有驱动不兼容问题)

2.1 重启即可

2.2 不重启方案 (服务端不能轻易重启情况)

2.2.1 杀死使用GPU相关进程, 看到pid之后杀死

sudo yum install -y lsof
sudo lsof -n -w  /dev/nvidia*

2.2.2 删除已有mod

sudo rmmod nvidia

报错 rmmod: ERROR: Module nvidia is in use by: nvidia_modeset nvidia_uvm
也就是 nvidia_modeset 和 nvidia_uvm 在使用, 将其也 rmmod
同时执行以下命令, 遇到什么模块说 in use, 将其 rmmod

sudo rmmod nvidia_modeset
sudo rmmod nvidia_drm
sudo rmmod nvidia_uvm

再运行命令

sudo rmmod nvidia
sudo nvidia-smi

2.2.3

此时发现nvidia-smi执行慢, 运行如下命令, 开启维护GPU的一个守护进程

nvidia-persistenced --persistence-mode

您可能感兴趣的与本文相关的镜像

PyTorch 2.5

PyTorch

Cuda

PyTorch 是一个开源的 Python 机器学习库，基于 Torch 库，底层由 C++ 实现，应用于人工智能领域，如计算机视觉和自然语言处理