如何自动杀死UNIX僵死的进程

人保系统集中处理时,网络问题会使进程僵死,消耗系统资源。为此编写了Shell程序Autokill自动杀死僵死进程,还介绍了查看中间结果的方法及修改条件。若Kill命令失灵,编写Autoreboot程序让机器自动开关机,并设置了cron作业。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

人保系统的计算机应用,已从单机运行方式过渡到以公司为中心的集中处理方式,各县级支公司通过广域网、远程telnet登录到市公司主机。由于网络的原因,有些进程会突然僵死。这些僵死的进程,会消耗系统大量的资源,直接影响机器的正常运行。为了实时地、自动地杀死这些僵死的进程,本人编写了 Shell程序Autokill。

   Autokill程序脚本
   #

   # autokill

   #

   ps -ef | awk '{ print $1,$2,$7,$8 }' | /

   awk '/[0-9][0-9]:[0-9][0-9]:[1-9][0-9]/ { print $1,$2,$3,$4 }' | /

   awk '!/root/ { print "kill -9 " $2}' > /tmp/k_kill

   chmod 777 /tmp/k_kill

   /tmp/k_kill

   Autokill程序解释
   首先,用UNIX 命令 ps -ef 查看进程状态,通过管道传送给 awk 进行处理。

   在第一个 awk 中,获取进程的用户标识(UID)、进程号(PID)、进程占用CPU时间(Time)、进程执行命令(CMD)四个字段的值。

   在第二个awk 中,通过模式匹配,选取所有匹配模式的行。在awk 中,[0-9]匹配0~9中任一个数字,[1-9]匹配1~9中任何一个数字,连用两个[0-9][0-9]则匹配一个任意两位数,因此[0-9][0-9]:[0-9][0-9]:[1-9][0-9]则匹配 Time时间字段值,查找占用 CPU 时间超过 10 秒的进程;如果要查找占用 CPU 时间超过半小时的进程,则把模式改成 [0-9][0-9]:[3-9][0-9]:[0-9][0-9]。

   在第三个 awk 中,用 “!/root/ ”过滤掉由 Root用户生成的进程,并进行Shell语言拼装,并将最终结果定向到文件 /tmp/k_kill。在 /tmp/k_kill 文件中,都是形如 kill -9 123 的Shell命令。

   在Autokill程序的最后,执行 /tmp/k_kill 杀死进程。

   查看中间结果
   Autokill程序采用了管道处理方式,如要查看中间结果,则可以依次断开管道。

   第一步执行:ps -ef

   第二步执行:ps -ef | awk '{ print $1,$2,$7,$8 }'

   第三步执行:ps -ef | awk '{ print $1,$2,$7,$8 }' | /

   awk '/[0-9][0-9]:[0-9][0-9]:[1-9][0-9]/ { print $1,$2,$3,$4 }'

   第四步执行:ps -ef | awk '{ print $1,$2,$7,$8 }' | /

   awk '/[0-9][0-9]:[0-9][0-9]:[1-9][0-9]/ { print $1,$2,$3,$4 }' | /

   awk '!/root/ { print "kill -9 " $2}' > /tmp/k_kill

   最终查看 /tmp/k_kill 文件。

   再有,如只想自动杀死由某一用户执行的进程(如jdc3206),只要将模式“!/root/”改成 “/jdc3206/”即可;如只想杀死执行某一命令的进程(如 xinmu ),只要将模式“!/root/” 改成“/xinmu/”即可。

   最后用 crontab -e 增加一个 cron 作业。

   0,30 * * * * /tmp/autokill

   Kill命令失灵怎么办
   经过以上步骤,系统每隔半小时执行一次/tmp/autokill。但在UNIX系统中,有些僵死的进程会莫名其妙地不能用 Kill 命令杀死,这就需要重新引导机器,一方面清除系统垃圾,另一方面需要对资源重新分配。采用中心运行模式,机器不能随意开关机,总要等到夜晚没有用户使用机器时,才能重新开关机。为此编写一个Shell程序,让机器自动开关机。以下是Autoreboot 程序脚本。

   #

   # autoreboot

   #

   PATH=/bin:/etc:/usr/bin:/tcb/bin:/usr/informix/bin

   INFORMIXDIR=/usr/informix

   INFORMIXSERVER=da3206a

   ONCONFIG=onconfig.yca

   export PATH INFORMIXDIR INFORMIXSERVER ONCONFIG

   onmode -ky

   sync

   sync

   reboot

   Autoreboot程序前 5 行,是设置 Informix系统环境,命令 onmode -ky 是关闭 Informix Online数据库,命令 sync 是UNIX 文件系统超级块回写,命令 reboot 是UNIX 系统中的系统重新启动命令。

   用 crontab -e 命令,增加一行 cron 作业30 6 * * * /tmp/auto_boot。

   该命令使系统每天6:30 重新开关机。如果使用的是双机系统,则要在两台机器上,都要进行重新开关机,时间定成一致
### 如何在 Linux 中终止 Java 僵死进程 #### 查找并确认僵死进程 在 Linux 系统中,可以通过以下方法查找是否存在僵死进程。使用 `ps` 命令可以显示当前系统的进程状态,并通过过滤器筛选出处于僵尸状态的进程。 ```bash ps -A -o stat,ppid,pid,cmd | grep -e '^[Zz]' ``` 上述命令会列出所有僵尸进程及其父进程 ID (PPID),以及对应的命令名称[^1]。如果存在由 Java 应用产生的僵尸进程,则可以在最后一列看到与 Java 相关的信息。 #### 终止僵尸进程的父进程 由于僵尸进程本身无法被直接杀死,它们的状态依赖于其父进程回收资源。因此,通常的做法是找到僵尸进程的 PPID 并终止该父进程: ```bash kill -9 <parent_pid> ``` 当父进程被强制终止后,init 进程(PID=1)将接管孤儿进程并清理未释放的资源[^3]。 #### 自动化脚本处理僵尸进程 为了更高效地管理僵尸进程,可编写自动化脚本来定期检测和清除这些问题。以下是基于 Shell 的示例脚本: ```bash #!/bin/bash zombie_check=$(ps -A -o stat,ppid,pid,cmd | grep -e '^[Zz]') if [ -n "$zombie_check" ]; then echo "Start to handle the zombies!!!" for pid in $(ps aux | grep -w Z | grep -v grep | awk '{print $2}'); do kill_command=$(ps -ef | grep $pid | grep defunct | awk '{print "kill -9 " $2 " "$3}') eval $kill_command done else echo "No zombies found!" fi ``` 此脚本能够自动扫描系统中的僵尸进程,并尝试结束与其关联的父进程。 #### 使用特定命令清理僵尸 除了手动操作外,还可以利用管道符组合多个工具来简化流程。例如,下面这条命令可以直接定位到所有的僵尸 PID 并发送信号给对应父级以请求销毁子项: ```bash ps -A -o stat,ppid,pid,cmd | grep -e '^[Zz]' | awk '{print $2}' | xargs kill -9 ``` 这种方法适用于批量删除大量僵尸实例的情况[^4]。 #### 预防措施建议 为了避免频繁出现因 Java 而引发的僵滞现象,在部署服务端应用之前应该做好充分准备: - 设置合理的超时机制; - 对异常情况进行捕获记录以便后续分析改进; - 定期监控服务器性能指标变化趋势提前预警潜在风险。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值