【原创】如何解决python进程被kill掉后GPU显存不释放的问题

最新推荐文章于 2024-08-20 12:06:34 发布

原创最新推荐文章于 2024-08-20 12:06:34 发布 · 2.3w 阅读

47 ·

CC 4.0 BY-SA版权

深度学习使用技巧专栏收录该内容

25 篇文章

订阅专栏

本文介绍了一种常见情况，即在服务器上kill掉Python进程后，GPU显存未被正确释放的问题，并提供了解决方案。通过重新打开shell并使用特定命令检查和清理进程，最终释放了被占用的显存。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

今早kill掉服务器里两个python进程，结果发现GPU的显存并没有被释放。在网上查了各种方法，最后搞定。

这是进程被kill掉后显存依旧被占的情景：

莫慌~试试以下几步：

1 重新开一个shell，然后输入： ps aux|grep user_name|grep python。所有该用户下的python程序就会显示出来（很多在用watch命令都不会显示的进程在这里可以看到）；

2 然后再一个个用kill命令清理

这样就大功告成了~~~是不是很简单啊

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Kumuda

关注关注

23
点赞
踩
47

收藏

觉得还不错? 一键收藏
12
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

解决使用torch.cuda.empty_cache()仍然GPU显存无法释放的问题

人工智能

03-13

2000

使用pytorch设置多线程（threads）进行数据读取（DataLoader），其实是假的多线程，他是开了N个子进程（PID都连着）进行模拟多线程工作，所以你的程序跑完或者中途kill掉主进程的话，子进程的GPU显存并不会被释放，需要手动一个一个kill才行.在开发的过程中，程序已经关闭，但是GPU显存无法释放，在使用pytorch写程序的时候,　有时候会在控制台终止掉正在运行的程序，但是有时候程序已经结束了，nvidia-smi也看到没有程序了，但是GPU的内存并没有释放，这是怎么回事呢？

【Linux】程序已经运行完了，但是占着GPU，没有释放内存怎么办——kill -9 PID

weixin_44502754的博客

05-21

1401

【Linux】程序已经运行完了，但是占着GPU，没有释放内存怎么办——kill -9 PID

12 条评论您还未登录，请先登录后发表或查看评论

Linux释放GPU显存，解决python进程被kill掉后GPU显存不释放的问题

xiaoxiaobai_hse的博客

03-20

3532

Linux服务器释放GPU显存

python运行完程序后显存不释放，强制释放

cxd1241660907的博客

05-20

2071

> kill -9 `pgrep python` 如果还有正在运行的代码，小心一起被释放

进程Kill杀死后GPU显存没有释放仍然被占用(僵尸进程)

qq_37591986的博客

06-09

1万+

一行指令杀死占用显存的僵尸进程

终止进程后，GPU显存仍被占用问题： kill -9彻底杀死进程 | ps aux|grep python | 怎么确认僵尸进程？

weixin_47700137的博客

11-12

5847

问题描述：在Linux终端把进程终止后，发现显存没有被释放出来！

解决 kill -9 PID 无法杀死 python 进程的问题：杀死 defunct 进程

qq_43799400的博客

08-20

1520

解决 kill -9 PID 无法杀死 python 进程的问题：杀死 defunct 进程

pytorch在kill主进程后无法释放显存的问题

georgeandgeorge的博客

05-16

4589

同事写的pytorch程序最近有点奇怪，程序运行结束/强制杀死后，占用的显存没能正常释放。这是怎么一回事呢？在pytorch论坛搜到以下的信息：https://discuss.pytorch.org/t/pytorch-doesnt-free-gpus-memory-of-it-gets-aborted-due-to-out-of-memory-error/13775/13 就是说：多进程模式下的pytorch程序有个别版本会有这个bug：已经kill了主进程，可是子进程却没有kill掉，成了僵尸

python运行提示显卡内存不足_Pytorch GPU显存充足却显示out of memory的解决方式

weixin_39890327的博客

12-08

1万+

Pytorch GPU显存充足却显示out of memory的解决方式今天在测试一个pytorch代码的时候显示显存不足，但是这个网络框架明明很简单，用CPU跑起来都没有问题，GPU却一直提示out of memory.在网上找了很多方法都行不通，最后我想也许是pytorch版本的问题，原来我的pytorch版本是0.4.1，于是我就把这个版本卸载，然后安装了pytorch1.1.0，程序就可以...

Linux|kill killall 杀不掉的进程

njuptalex的博客

01-04

2790

问题：有进程占用显存，但是通过kill -9 PID杀不掉，进程Running态应该是等不到数据导致阻塞。 ➜ ~ alias pg pg='ps aux | grep $1' ➜ ~ pg 22109 chenkan+ 10350 0.0 0.0 112680 992 pts/24 S+ 21:33 0:00 grep --color=auto --exclude-dir=.bzr --exclude-dir=CVS --exclude-dir=.git --exclude-d

程序kill后仍占用GPU，kill指令没用

lkaros_的博客

08-24

449

【代码】程序kill后仍占用GPU。

Linux显存占用无进程清理方法(进程已经退出，但是没有释放显存)

junmuzi的专栏

06-10

7907

Original url： https://blog.youkuaiyun.com/shanglianlm/article/details/85052773 在跑Caffe、TensorFlow、pytorch之类的需要CUDA的程序时，强行Kill掉进程后发现显存仍然占用，这时候可以使用如下命令查看到top或者ps中看不到的进程，之后再kill掉： fuser -v /dev/nvidia* 1 接着...

解决进程杀死，显存仍在的问题

热门推荐

u013548568的博客

05-13

1万+

1、用nvidia-smi也好，top也好都找不到kill掉的进程了，但是显存仍然占用没有被释放，怎么办呢？毕竟top也找不到进程号呀用以下指令查找出top没有而他有的进程 fuser -v /dev/nvidia* 逐个kill掉top中不显示的进程就可以了...

方法-进程已经杀死但是显存还未释放怎么办(ubuntu)

zwhdldz的博客

11-30

1381

训练程序ctrl+c后,依然显示显存占用。##查看后台的训练进程。

[debug] python 内存不能释放

有关我的科研的足迹、算法竞赛的日子、生活记录。

03-06

653

为啥python的gc不能释放内存呢？这个是正常现象吗？

解决Pytorch训练意外停止显存不释放的问题

xxs8457800的博客

02-14

9600

想要测试搭建的网络最多可以用多大的batch size训练，于是用不同的batch size测试显存的占用大小。用ctrl z结束进程后，发现显存还没有释放。 watch -n 1 nvidia-smi #查看显存占用情况，刷新时间为1秒 GPU的利用率为0，可是显存依然没有释放。使用ps ax查看进程，发现python main.py依然存在。可以看到main.py的进程ID为2477...

当退出python时是否释放全部内存_谈谈如何手动释放Python的内存

weixin_39669638的博客

11-23

493

在上篇博客中，提到了对一个脚本进行的多次优化。当时以为已经优化得差不多了，但是当测试人员测试时，我才发现，踩到了Python的一个大坑。在上文的优化中，对每500个用户，会进行一些计算并记录结果在磁盘文件中。原本以为这么做，这些结果就在磁盘文件中了，而不会再继续占用内存；但实际上，Python的大坑就是Python不会自动清理这些内存。这是由其本身实现决定的。具体原因网上多有文章介绍，这里就不co...

GPU显存不释放

HeavenWalker

04-08

1821

https://www.jianshu.com/p/0d8ea6ca332a

解决GPU 显存未能完全释放

不忘初心，方得始终

06-25

1729

算法同学反馈显存未能完全释放。

服务器如何释放指定GPU显存

最新发布

04-02

### 如何释放服务器上指定GPU的显存在深度学习和高性能计算场景下，清理特定GPU的显存通常涉及终止占用该GPU资源的相关进程。以下是具体方法： #### 终端操作流程可以通过 `nvidia-smi` 命令获取当前系统中各GPU的使用情况以及占用其资源的进程列表[^1]。执行以下命令可查看详细的GPU状态及进程信息： ```bash nvidia-smi ``` 上述命令会返回每块GPU的详细状态，包括编号、名称、功耗、温度、利用率、已分配的显存和总显存等数据[^3]。同时，“Processes”部分列出了正在使用的进程及其ID。要释放某块GPU上的显存，需先找到并杀死与其关联的所有进程。假设目标是释放第0号GPU（即GPU 0）的显存，则按照如下方式处理： 1. **查找占用GPU资源的进程** 执行以下命令筛选出仅与目标GPU相关的进程： ```bash nvidia-smi | grep "GPU 0" ``` 2. **记录进程PID** 上述命令的结果将显示所有占用GPU 0的进程及其对应的PID（Process ID）。例如： ``` 12345 C python 896MiB 12346 C tensorboard 128MiB ``` 此处，`12345` 和 `12346` 即为需要清除的进程ID。 3. **强制终止这些进程** 使用 `kill` 或 `pkill` 命令逐一结束对应进程： ```bash kill -9 12345 kill -9 12346 ``` 完成以上步骤后，再次运行 `nvidia-smi` 验证显存是否已被成功回收。如果仍有残留占用，可能是因为某些后台服务未完全退出；此时建议重启相关服务或整个节点以彻底解决问题[^2]。另外，在CUDA环境中开发的应用程序可能会因为异常中断而遗留隐匿句柄导致无法正常释放显存。针对这种情况，除了手动杀掉可疑线程外，也可以尝试调用 CUDA 提供的专用函数来进行全局范围内的资源销毁工作[^4]: ```cpp cudaDeviceReset(); ``` 此C++ API 能够确保当前进程中所有的 GPU 设备都被安全关闭，并且回收它们所持有的全部内存空间。 #### 注意事项 - 杀死进程前务必确认无误以免影响其他重要任务； - 对于长期部署的服务型应用来说，频繁的人工干预并不是理想方案——应当优化代码逻辑减少不必要的资源浪费现象发生。