解决进程杀死,显存仍在的问题

本文介绍了当GPU显存被占用但无法通过常规方式找到占用进程时的解决方法。提供了几种实用的命令来查找和终止这些进程,包括使用fuser命令定位到具体的设备文件并逐个kill掉top中不显示的进程、使用ps和kill组合命令来专门针对PyTorch进程进行清理以及采用更为激进的方法如killall命令等。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1、用nvidia-smi也好,top也好都找不到kill掉的进程了,但是显存仍然占用没有被释放,怎么办呢?毕竟top也找不到进程号呀
用以下指令查找出top没有而他有的进程

fuser -v /dev/nvidia*

这里写图片描述

逐个kill掉top中不显示的进程就可以了

2、pytorch杀不干净

ps aux|grep lk|grep python|awk '{print $2}'|xargs kill

3、更加暴力的方法是直接删除该用户的所有的进程

killall -u usrname

这时候该用户的所有进程都没了
4、也可以用下面的命令找出僵尸进程

ps aux | grep username
### 查找和终止导致GPU显存占满但利用率低的进程 #### 使用 `nvidia-smi` 工具监控GPU资源 为了有效管理和优化GPU资源,可以利用NVIDIA提供的工具`nvidia-smi`来查看当前系统的GPU使用情况。通过执行命令`nvidia-smi`可以获得关于GPU利用率以及各个进程占用显存量的信息[^2]。 对于那些显存消耗大而实际工作负载却很小(即GPU-util很低)的情况,可以通过如下方法定位具体是哪个应用造成了这样的状况: ```bash watch -n 1 nvidia-smmi ``` 上述指令每秒刷新一次显示结果,便于观察一段时间内的变化趋势;其中不仅能看到总的GPU usage percentage,还能看到每个正在运行的应用程序所持有的显存大小[^1]。 #### 定位特定进程ID (PID) 一旦确认存在某个或某些进程长期持有大量显存却不做多少计算,则需进一步获取这些进程的确切PID以便后续处理。这一步骤可通过组合使用`ps`, `grep` 和其他文本处理工具完成: ```bash ps aux | grep python | grep -v grep | cut -c 9-15 ``` 这条命令列出了所有由Python解释器启动且未被过滤掉的服务/脚本对应的PID列表。当然也可以根据实际情况调整关键词匹配范围以适应不同场景下的需求[^5]。 #### 终止目标进程 当已经锁定了造成问题的具体服务之后就可以采取行动将其停止了。最简单粗暴的方式就是直接发送SIGKILL信号给对应的目标进程: ```bash kill -9 PID ``` 这里需要注意的是,在发出此类强制关闭请求之前最好先尝试更温和的方法比如发送SIGHUP或者SIGTERM信号让应用程序有机会正常退出从而减少意外发生的风险。 另外值得注意的一点是在多线程或多进程中可能存在父子关系的情况下,仅杀死父级可能会连带影响到子级的行为模式甚至自动触发连锁反应使得后者也被清理出去。
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值