英伟达 Tesla K80显卡驱动安装

最新推荐文章于 2024-10-04 10:13:08 发布

原创最新推荐文章于 2024-10-04 10:13:08 发布 · 6.9k 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#linux #centos

Linux 专栏收录该内容

7 篇文章

订阅专栏

本文介绍了在Linux CentOS系统中安装NVIDIA Tesla K80显卡驱动的步骤。首先，从英伟达官网下载对应驱动文件，然后修改文件属性并以root用户执行。安装过程中遇到的问题包括必须以root权限运行、确认GPU硬件存在以及X服务器运行导致的阻碍。解决方法包括切换到root用户、确保在安装GPU的计算节点上执行安装命令以及停止X服务器。最终，成功安装驱动后，可在指定目录找到文件夹，为后续GPU软件编译做准备。

部署运行你感兴趣的模型镜像

准备驱动安装文件

到英伟达官网下载驱动文件，根据自己显卡型号进行选择，下载文件名为 *.run的文件。
更改驱动安装文件的属性

chmod +x NVIDIA-Linux-x86_64-450.51.06.run

执行安装文件

[zxwu@ILC opt]$ ./NVIDIA-Linux-x86_64-450.51.06.run

安装过程中的问题

发现安装失败，系统提示必须是root用户才能运行安装程序

Verifying archive integrity... OK
Uncompressing NVIDIA Accelerated Graphics Driver for Linux-x86_64 450.51.06...........................
nvidia-installer: Error opening log file '/var/log/nvidia-installer.log' for writing (Permission denied); disabling logging.

在这里插入图片描述

解决方法是切换到root用户

[zxwu@ILC opt]$ su
Password: 
su: incorrect password
[zxwu@ILC opt]$ su
Password: 
[root@ILC opt]#

注意su命令是直接切换到root用户，所以输入的密码需要是root用户的密码，而sudo只是以root身份运行一条命令，只需输入当前用户的密码。

提示缺少对应硬件

机器上需要安装了对应的GPU硬件才能正确安装驱动。
但是我们的计算机集群¹ 确实安装了GPU节点，为什么还会出现这个问题呢。

这里需要注意的是在计算机集群上，我们通常是登录到管理节点，而GPU是安装在计算节点上，计算节点和管理节点相当于独立的计算机系统，所以想要安装驱动，必须通过ssh命令登录到安装GPU的计算节点上。

提示X服务器正在运行，关闭后安装

nvidia-installer log file '/var/log/nvidia-installer.log'
creation time: Mon Jun 11 05:46:17 2012
installer version: 295.53

PATH: /usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:/usr/games

nvidia-installer command line:
    ./nvidia-installer

Using: nvidia-installer ncurses user interface
-> The file '/tmp/.X0-lock' exists and appears to contain the process ID '1062' of a >runnning X server.
ERROR: You appear to be running an X server; please exit X before installing.  For >further details, please see the section INSTALLING THE NVIDIA DRIVER in the README >available on the Linux driver download page at www.nvidia.com.
ERROR: Installation has failed.  Please see the file '/var/log/nvidia-installer.log' >for details.  You may find suggestions on fixing installation problems in the README >available on the Linux driver download page at www.nvidia.com.

关于这个错误，在网上进行搜索，大部分的答案都如下图所示。
在这里插入图片描述
这个方法可能能够解决问题，但在服务器上并不方便，所以我也没尝试，最后在网上论坛的回答中找到了更合适的答案，即删除输入命令

ssh gpu01    #gpu01 是我安装了GPU的计算节点
rm /tmp/.X0-lock

安装成功

在这里插入图片描述

至此，GPU驱动安装就大功告成了，可以在/usr/local/目录下找到cuda文件夹，后续编译软件GPU版本时，指定该目录即可。

[root@gpu01 opt]# cd /usr/local/
You have new mail in /var/spool/mail/root
[root@gpu01 local]# ls
bin   cuda-8.0  games    include  lib64    sbin   src
cuda  etc       ganglia  lib      libexec  share  torque
[root@gpu01 local]#

通常由一个管理节点和多个计算节点构成，由千兆网线或IB通讯实现高速互联 ↩︎

您可能感兴趣的与本文相关的镜像

Wan2.2-I2V-A14B

图生视频

Wan2.2

Wan2.2是由通义万相开源高效文本到视频生成模型，是有50亿参数的轻量级视频生成模型，专为快速内容创作优化。支持480P视频生成，具备优秀的时序连贯性和运动推理能力