【解决方案】Ubuntu系统停止训练神经网络模型时进程卡死的问题
在进行神经网络模型训练时,如果 手动停止训练模型,可能会出现进程卡死, 无法退出的问题。尤其是利用多个GPU进行 分布式训练时,往往会涉及到多个 python进程。
为停止训练,需要结束进程,输入以下命令即可:
fuser -v /dev/nvidia*^C
ps x |grep python|awk '{print $1}'|xargs kill
为停止训练,需要结束进程,输入以下命令即可:
fuser -v /dev/nvidia*^C
ps x |grep python|awk '{print $1}'|xargs kill