nvidia-smi命令输出结果缓慢问题

        nvidia-smi命令输出结果缓慢问题,可能的原因和解决办法:

1、当前已经打开了节能模式(需要关闭节能模式,切换到持久模式)。

如何关闭节能模式:

方法1:

sudo nvidia-persistenced --persistence-mode

方法2:

# 修改或创建配置文件
# persistence mode 能够让 GPU 更快响应任务,待机功耗增加。关闭 persistence mode 同样能够启动任务
$ sudo  vim /etc/rc.local

# 加入:

#!/bin/bash
sudo nvidia-smi -pm 1

# 使配置生效
$ source /etc/rc.local

Enabled persistence mode for GPU 00000000:02:00.0.
Enabled persistence mode for GPU 00000000:03:00.0.
Enabled persistence mode for GPU 00000000:82:00.0.
Enabled persistence mode for GPU 00000000:83:00.0.
All done.


2、显卡可能要坏了

故障的现象是:运行命令$ nvidia-smi之后要么不显示显卡的情况,要么显示很缓慢。并且结果中有ERR! 提示

定位:

1、查看显卡情况:$ nvidia-smi,可以看到有一张显卡出现了故障。
并且只要有这张显卡插在服务器上,这个命令的输出都会非常缓慢

        可以看到,循坏的显卡BUS-ID是02;如何找到这张显卡呢?
2、通过$ nvidia-smi -q 查看BUS-ID和显卡的序列号之间的对应关系

        可以看到,损坏的显卡(BUS-ID 02)的序列号(Serial Number)尾号为4953。那这张显卡插在哪个PCIE卡槽?

3、通过$ sudo dmidecode -t slot 查看BUS-ID (BUS Address)和卡槽的对应关系:

         可以看到BUS-ID 02对应的卡槽为SLOT-2,SLOT标号一般在主板上,白色字体,在每个PCIE插槽(很长的那个插槽,插显卡的)的上方。
        还可以通过 $ sudo dmidecode -t slot | egrep -i "slot|add" 查看 (输出更简洁),输出类似于:

 

4、去机房,找到这台服务器上SLOT-2卡槽插的序列号(显卡上一般会贴有白色的序列号标签)尾号为4953的那张卡!拔下来维修

注意事项:实际中,BUS-ID可能会发生动态变化。比如你服务器插着4张卡的时候,有个BUS-ID 02的卡坏了,你把它拔了,再运行$ nvidia-smi,发现还会有BUS-ID 02的显卡出现在结果中。所以定位故障显卡,主要靠BUS-ID对应的显卡序列号和卡槽。这些信息相对固定。
————————————————
参考:

https://blog.youkuaiyun.com/qxqxqzzz/article/details/116970546
https://blog.youkuaiyun.com/qxqxqzzz/article/details/119031178

`nvidia-smi`是NVIDIA System Management Interface(管理系统界面)的一个实用工具,主要用于监控和管理NVIDIA图形处理器(GPU)。它提供了一系列强大的命令选项,以帮助用户了解GPU状态、性能数据、驱动信息以及电源管理等。以下是`nvidia-smi`命令的一些常用选项及其功能: 1. **查询GPU基本信息**: - `nvidia-smi`: 显示简化的GPU信息,如GPU型号、温度、功率等。 - `nvidia-smi -L`: 列出所有安装的GPU设备。 2. **实时监控**: - `nvidia-smi -d Pid`: 监控特定进程PID对应的GPU使用情况。 - `nvidia-smi -s T`: 设置刷新时间间隔,例如 `nvidia-smi -s 1`表示每秒刷新一次。 3. **性能分析**: - `nvidia-smi -q`: 安静模式,只返回查询结果- `nvidia-smi -h` 或 `nvidia-smi --help`: 查看完整命令帮助文档。 4. **管理和控制**: - `nvidia-smi -k [pid]`: 杀死GPU应用进程(pid),如果省略则杀死所有GPU相关的进程。 - `nvidia-smi -pm 0/1/2`: 控制GPU的电源管理模式(0=自动,1=高性能,2=节能)。 5. **内存管理**: - `nvidia-smi -m reset` 或 `-m freedriver`: 尝试释放GPU内存。 - `nvidia-smi -mc [mode]`: 管理CUDA池,如设置共享内存模式。 6. **显示应用程序详细信息**: - `nvidia-smi -a`: 显示所有运行在GPU上的应用程序及它们的资源使用情况。 使用`nvidia-smi`之前,确保已经安装了NVIDIA的驱动程序,并且正确配置了环境变量。对于详细的命令列表和每个选项的具体用途,可以在终端运行`nvidia-smi --help`获取完整的帮助文档。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值