【解决方案】在linux服务器当中使用nvidia-smi查看不了GPU信息和使用情况

博客介绍了查看GPU具体情况的方法。一般用nvidia - smi查看,若无法查看,可能设备无GPU;若GPU存在仍查不出,可能是服务器未联网,此时输入squeue可查看GPU使用情况。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

通常我们会用nvidia-smi查看GPU的具体情况,但是如果输入nvidia-smi查看不了GPU,有可能是设备不具有GPU,如果确定是GPU存在的情况还是查不出的话,那就是因为服务器没有联网,这种情况输入squeue就能查看GPU的具体使用情况。

### 解决 Ubuntu 系统 `nvidia-smi` 命令无效的方案 当遇到 `NVIDIA-SMI has failed because it couldn’t communicate with the NVIDIA driver` 的错误信息时,通常意味着 Nvidia 显卡驱动未能正常加载或工作。以下是几种常见的解决方法: #### 方法一:确认并重装合适的 Nvidia 驱动程序 先查找已安装的 Nvidia 驱动版本号: ```bash ls /usr/src | grep nvidia ``` 如果发现驱动损坏或者不兼容,则可以卸载旧版驱动再安装新版驱动来修复问题[^1]。 对于特定版本如 525.105.17 的驱动,可以通过如下命令完成安装操作: ```bash sudo apt-get install dkms sudo dkms add ./path_to_driver_package # 如果是从源码包安装的话这一步可能是必要的 sudo dkms install -m nvidia -v 525.105.17 ``` #### 方法二:确保内核模块正确编译加载 有时即使成功安装了驱动也可能因为缺少 DKMS 支持而导致新内核下无法正常使用。因此建议先安装 DKMS 工具以支持动态构建内核模块: ```bash sudo apt-get update && sudo apt-get upgrade sudo apt-get install linux-headers-$(uname -r) build-essential dkms ``` 接着再次尝试安装对应的 Nvidia 驱驶,并重启计算机验证是否解决了问题[^3]。 #### 方法三:创建 Systemd 服务保持 GPU 持久化模式开启 为了防止某些场景下的性能下降或者其他异常情况发生,可以在系统启动期间设置持久化的 GPU 运行状态。具体做法是新建一个名为 `nvidia-persistence.service` 的 systemd 单元文件,在其中定义相应的配置项以便于每次开机都能自动激活此功能[^4]: ```ini [Unit] Description=Enable nvidia persistence mode [Service] Type=oneshot ExecStart=/bin/sh -c '/usr/bin/nvidia-smi -pm 1' RemainAfterExit=true [Install] WantedBy=multi-user.target ``` 保存更改后记得启用以及立即应用新的设定: ```bash sudo systemctl enable nvidia-persistence.service sudo systemctl start nvidia-persistence.service ``` #### 方法四:排查其他潜在因素影响 除了上述措施外,还需注意是否存在第三方软件干扰、硬件连接不稳定等问题。另外,服务器意外掉电可能导致数据丢失或文件系统损坏等情况,进而间接引发此类故障。此时应当仔细检查日志记录寻找线索,必要时联系专业技术团队协助诊断处理[^5]。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值