系统可以识别到多块 NVIDIA GPU,且驱动模块已加载,但 nvidia_uvm 被占用,nvidia-smi 卡死,通常是由于以下原因导致:
📌 可能原因
- GPU 资源被占用
某些进程正在使用 NVIDIA 驱动,导致模块无法卸载。 - 驱动损坏或加载异常
NVIDIA 内核模块部分加载,但驱动未能正确工作。 - GPU 挖矿或 AI 任务未释放
某些后台程序未正常退出,导致 GPU 资源无法被释放。 - PCIe 通道异常
多卡环境可能由于 PCIe 配置或硬件故障引起问题。
✅ 1. 查找占用 GPU 资源的进程
① 查找使用 GPU 的进程:
lsof /dev/nvidia*
如果输出中有程序(如 python, t-rex),记录其 PID。
② 强制终止占用 GPU 的进程:
sudo kill -9 <PID>
如果无法识别占用者,尝试直接结束相关用户的会话:
pkill -9 python pkill -9 t-rex
✅ 2. 强制卸载 NVIDIA 模块
① 停止占用 GPU 的服务(如 Docker、AI 框架):
sudo systemctl stop docker sudo systemctl stop kubelet

最低0.47元/天 解锁文章
1624

被折叠的 条评论
为什么被折叠?



