生产问题现象
惯例正常删除pod完成应用更新,kubectl delelet 一直卡主,并且pod状态是Terminating ,通过--grace-period=0 --force从kubect get pod结果上来看强制删除虽然有效,但是新running的pod没有任何日志,其他服务调用500错误,进入node节点查看问题。
top命令查看有竟有4个zombie
docker日志也有僵尸进程的问题
这4个pod都是delete过的,但没有完成销毁释放
处理过程
查看僵尸进程
[root@node2-hb3 ~]# ps aux | egrep "Z|defunct"| grep -v grep
USER PID %CPU %MEM VSZ RSS TTY STAT START TIME COMMAND
root 19779 0.1 0.0 0 0 ? Zl May29 21:37 [java] <defunct>
root 22600 0.0 0.0 0 0 ? Zl Jun07 0:02 [java] <defunct>
root 24068 0.0 0.0 0 0 ? Zl Jun07 0:02 [java] <defunct>
root 25016 0.0 0.0 0 0 ? Zl Jun07 0:02 [java] <defunct>
通过kill父进程完成孤独进程的救赎
ps -e -o ppid,stat | grep Z | cut -d” ” -f2 | xargs kill -9