Linux 服务器上Nvidia相关指令

1、GPU驱动的内存常驻模式

1)操作命令:

  1. 确保你具有root或sudo权限,以执行下面的命令。
  2. 打开终端或命令行界面。
  3. 运行以下命令来设置GPU驱动的内存常驻模式:
nvidia-smi -pm 1

这会将GPU驱动程序设置为内存常驻模式。
4. 验证设置是否成功。运行以下命令:

nvidia-smi

这会显示GPU的状态信息。在输出中,你应该看到"Persistence Mode"(持久模式)的值为"Enabled"(已启用)。

       请注意,上述命令是基于NVIDIA的官方驱动程序。如果你使用的是第三方驱动程序或不同版本的驱动程序,命令可能会有所不同。在执行上述命令之前,建议参考NVIDIA驱动程序的文档或帮助资源,以获取适用于你的驱动程序版本的正确命令和选项。

       此外,需要注意的是,启用GPU驱动的内存常驻模式会持续占用系统资源,并增加能耗。因此,在使用完毕后,如果不再需要常驻模式,建议将其禁用,以节省资源和能源。可以使用以下命令将GPU驱动程序设置为非常驻模式:

nvidia-smi -pm 0

这将禁用GPU驱动的内存常驻模式。

2)优缺点分析:

优点:
        快速应对任务:开启内存常驻模式后,GPU驱动程序将一直保持加载状态,可以立即响应新的计算任务,而无需重新加载驱动程序。这可以减少启动和加载时间,提高任务响应速度。
        减少资源开销:在内存常驻模式下,GPU驱动程序会保持已分配的显存和上下文状态,避免了重复分配和释放显存的开销。这对于频繁执行计算任务或长时间运行的应用程序来说特别有用,可以减少资源的浪费。

缺点:
       能耗增加:开启内存常驻模式会使GPU驱动程序一直保持加载状态,这会导致显卡持续消耗电力,即使在空闲或轻负载时也会增加能耗。
       系统稳定性风险:长时间运行的应用程序可能会导致GPU驱动程序处于加载状态,并持续占用系统资源,这可能增加系统的稳定性风险。如果驱动程序发生问题或崩溃,可能需要重新启动系统才能恢复正常。
       综上所述,开启GPU驱动的内存常驻模式可以提高任务响应速度和资源利用效率,但需要权衡能耗和系统稳定性风险。是否打开内存常驻模式应根据具体的使用场景和需求来决定。

2、单独重启GPU显卡驱动

在CentOS系统下,你可以尝试单独重启GPU显卡驱动而无需重启整个服务器。可以通过以下步骤来实现:

  1. 确保你具有root或sudo权限,以执行下面的命令。
  2. 停止使用GPU的应用程序或服务,以确保没有正在运行的进程使用GPU。
  3. 卸载当前的NVIDIA驱动程序。你可以使用以下命令:
sudo nvidia-uninstall

这将卸载当前安装的NVIDIA驱动程序。
4. 重新加载NVIDIA内核模块。使用以下命令:

sudo modprobe nvidia

这将重新加载NVIDIA内核模块,实际上相当于重启GPU驱动。
5. 检查驱动程序是否成功加载。使用以下命令:

lsmod | grep nvidia

如果输出中显示了nvidia相关的模块,则表示驱动程序已成功加载。

请注意,尽管你不需要重新启动整个服务器,但这种方法并不是适用于所有情况的解决方案。某些情况下,可能仍然需要重启服务器来确保驱动程序的正确加载和配置。此外,如果你进行了新的驱动程序安装或系统更新,重启服务器可能是更安全和可靠的做法。

### CUDA Toolkit在Linux服务器上的安装教程 #### 准备工作 确保系统已更新至最新状态并安装必要的依赖项。对于基于Debian/Ubuntu的发行版,可以执行以下命令来准备环境[^1]: ```bash sudo apt-get update && sudo apt-get upgrade -y sudo apt-get install build-essential cmake git unzip pkg-config libopencv-dev ``` #### 添加NVIDIA软件源 为了简化CUDA Toolkit及其驱动程序的安装过程,在大多数情况下建议添加官方维护的NVIDIA APT仓库到系统的包管理器配置文件中。这一步骤能够帮助自动处理依赖关系,并允许更方便地管理和升级CUDA组件。 针对不同的操作系统版本有不同的URL地址;这里以最新的稳定分支为例说明如何设置APT源列表: ```bash wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-ubuntu2004.pin sudo mv cuda-ubuntu2004.pin /etc/apt/preferences.d/cuda-repository-pin-600 sudo wget https://developer.download.nvidia.com/compute/cuda/11.5.1/local_installers/cuda-repo-ubuntu2004-11-5-local_11.5-470.57.02-1_amd64.deb sudo dpkg -i cuda-repo-ubuntu2004-11-5-local_11.5-470.57.02-1_amd64.deb sudo cp /var/cuda-repo-ubuntu2004-11-5-local/cuda-*-keyring.gpg /usr/share/keyrings/ sudo apt-get update ``` #### 安装CUDA Toolkit及相关组件 完成上述准备工作之后就可以正式开始安装CUDA Toolkit了。考虑到不同应用场景的需求差异较大,可以选择仅安装核心部分或是连同其他辅助工具一起部署: 只安装最小化的CUDA运行时支持(适用于已经预装好显卡驱动的情况) ```bash sudo apt-get -y install cuda-toolkit-11-5 ``` 全量安装包括文档、示例在内的全部资源 ```bash sudo apt-get -y install cuda ``` #### 配置环境变量 为了让编译器和其他命令行工具能够在任何地方被调用,还需要调整PATH和LD_LIBRARY_PATH两个重要的shell环境变量。编辑`~/.bashrc`或其他相应的启动脚本文件,加入如下几行内容: ```bash export PATH=/usr/local/cuda-11.5/bin${PATH:+:${PATH}} export LD_LIBRARY_PATH=/usr/local/cuda-11.5/lib64\ ${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}} ``` 使更改立即生效: ```bash source ~/.bashrc ``` #### 测试安装成果 最后验证新安装好的CUDA是否正常运作。可以通过编写简单的测试程序来进行初步检测,也可以直接利用内置的帮助信息确认当前使用的具体版本号。 ```bash nvcc --version ``` 如果一切顺利的话,则可以看到类似于下面这样的输出结果,表明CUDA已经被成功激活并且处于可用状态[^2]: ```text nvcc: NVIDIA (R) Cuda compiler driver Copyright (c) 2005-2021 NVIDIA Corporation Built on Thu_Nov_18_09:45:30_PST_2021 Cuda compilation tools, release 11.5, V11.5.119 Build cuda_11.5.r11.5/compiler.30672275_0 ``` #### 使用Conda安装特定版本的CUDA Toolkit 对于那些希望通过Anaconda平台获取指定版本CUDA的支持用户来说,可以直接借助于Conda渠道快速实现目标。例如要为PyTorch项目定制化构建一套带有CUDA 11.1兼容性的虚拟环境,只需按照下列指令操作即可[^3]: ```bash conda create -n myenv python=3.9 conda activate myenv conda install pytorch==1.8.0 torchvision==0.9.0 torchaudio==0.8.0 cudatoolkit=11.1 -c pytorch -c conda-forge ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

syfly2014

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值