说明:
一般在使用pytorch训练网络模型时,可能会不正确的中断训练,导致进程僵尸,GPU依然被占用的情况。
解决办法:
查看进程的ID及其父进程ID指令:
ps -ef | grep defunct | more
假设输出如下:
Tokey+ 7567 2959 4 01:06 ? 00:15:03 [python] <defunct>
Tokey+ 7675 2964 0 Oct18 ? 00:00:19 [python] <defunct>
Tokey+ 45815 27058 0 06:15 pts/3 00:00:00 grep --color=auto defunct
以上对应:UID PID PPID …
UID:用户ID
PID:进程ID
PPID:父进程ID
如果你使用命令 kill -9 7567 尝试杀死ID为7567的进程,可能会没效果。要想成功杀死该进程,需要对其父进程(ID为2959)执行kill命令 kill -9 2959 。
本文介绍了在使用PyTorch训练模型时可能遇到的进程僵尸问题,如何通过查看进程ID和父进程ID找出僵尸进程,以及正确的方法(杀死父进程而非直接子进程)来解决GPU占用问题。
1401

被折叠的 条评论
为什么被折叠?



