英伟达 Tesla K80显卡驱动安装

本文介绍了在Linux CentOS系统中安装NVIDIA Tesla K80显卡驱动的步骤。首先,从英伟达官网下载对应驱动文件,然后修改文件属性并以root用户执行。安装过程中遇到的问题包括必须以root权限运行、确认GPU硬件存在以及X服务器运行导致的阻碍。解决方法包括切换到root用户、确保在安装GPU的计算节点上执行安装命令以及停止X服务器。最终,成功安装驱动后,可在指定目录找到文件夹,为后续GPU软件编译做准备。
部署运行你感兴趣的模型镜像

准备驱动安装文件

  • 英伟达官网下载驱动文件,根据自己显卡型号进行选择,下载文件名为 *.run的文件。
  • 更改驱动安装文件的属性
chmod +x NVIDIA-Linux-x86_64-450.51.06.run
  • 执行安装文件
[zxwu@ILC opt]$ ./NVIDIA-Linux-x86_64-450.51.06.run 

安装过程中的问题

  • 发现安装失败,系统提示必须是root用户才能运行安装程序
Verifying archive integrity... OK
Uncompressing NVIDIA Accelerated Graphics Driver for Linux-x86_64 450.51.06...........................
nvidia-installer: Error opening log file '/var/log/nvidia-installer.log' for writing (Permission denied); disabling logging.

在这里插入图片描述

解决方法是切换到root用户

[zxwu@ILC opt]$ su
Password: 
su: incorrect password
[zxwu@ILC opt]$ su
Password: 
[root@ILC opt]#

注意su命令是直接切换到root用户,所以输入的密码需要是root用户的密码,而sudo只是以root身份运行一条命令,只需输入当前用户的密码。

  • 提示缺少对应硬件
    在这里插入图片描述
    机器上需要安装了对应的GPU硬件才能正确安装驱动。
    但是我们的计算机集群1 确实安装了GPU节点,为什么还会出现这个问题呢。

这里需要注意的是在计算机集群上,我们通常是登录到管理节点,而GPU是安装在计算节点上,计算节点和管理节点相当于独立的计算机系统,所以想要安装驱动,必须通过ssh命令登录到安装GPU的计算节点上。

  • 提示X服务器正在运行,关闭后安装
nvidia-installer log file '/var/log/nvidia-installer.log'
creation time: Mon Jun 11 05:46:17 2012
installer version: 295.53

PATH: /usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:/usr/games

nvidia-installer command line:
    ./nvidia-installer

Using: nvidia-installer ncurses user interface
-> The file '/tmp/.X0-lock' exists and appears to contain the process ID '1062' of a >runnning X server.
ERROR: You appear to be running an X server; please exit X before installing.  For >further details, please see the section INSTALLING THE NVIDIA DRIVER in the README >available on the Linux driver download page at www.nvidia.com.
ERROR: Installation has failed.  Please see the file '/var/log/nvidia-installer.log' >for details.  You may find suggestions on fixing installation problems in the README >available on the Linux driver download page at www.nvidia.com.

关于这个错误,在网上进行搜索,大部分的答案都如下图所示。
在这里插入图片描述
这个方法可能能够解决问题,但在服务器上并不方便,所以我也没尝试,最后在网上论坛的回答中找到了更合适的答案,即删除输入命令

ssh gpu01    #gpu01 是我安装了GPU的计算节点
rm /tmp/.X0-lock

安装成功

在这里插入图片描述

至此,GPU驱动安装就大功告成了,可以在/usr/local/目录下找到cuda文件夹,后续编译软件GPU版本时,指定该目录即可。

[root@gpu01 opt]# cd /usr/local/
You have new mail in /var/spool/mail/root
[root@gpu01 local]# ls
bin   cuda-8.0  games    include  lib64    sbin   src
cuda  etc       ganglia  lib      libexec  share  torque
[root@gpu01 local]#

  1. 通常由一个管理节点和多个计算节点构成,由千兆网线或IB通讯实现高速互联 ↩︎

您可能感兴趣的与本文相关的镜像

Wan2.2-I2V-A14B

Wan2.2-I2V-A14B

图生视频
Wan2.2

Wan2.2是由通义万相开源高效文本到视频生成模型,是有​50亿参数的轻量级视频生成模型,专为快速内容创作优化。支持480P视频生成,具备优秀的时序连贯性和运动推理能力

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值