chromedriver僵尸进程的产生原因以及官方解决办法

文章讨论了使用Python爬虫时遇到的chromedriver僵尸进程问题,解释了zygote进程的原理和产生原因。官方推荐的解决方案是在启动时添加--no-zygote参数,以避免僵尸进程的产生。此外,文章提到了其他可能的清理方法和潜在风险,如kill命令可能导致sessionid失效或profile损坏。
部署运行你感兴趣的模型镜像

做过爬虫的人应该会知道driver.quit()后有一定几率产生chromdriver的孤儿进程(或者说僵尸进程)。但是这些僵尸是死而不僵,占据着内存让人讨厌,然而如果你随意杀死这些僵尸有可能导致正在运行的爬虫出错。所以说它们是僵尸是冤枉它们,它们实际上是孤儿进程,不过习惯上还是称它们为僵尸。

这个问题存在了很多年,可以说天下苦僵尸久矣。通常清理僵尸的办法就是kill这些僵尸,但是时机不好掌握,它们在刚成为僵尸时还有活动,这时如果kill它们会导致session id失效,或者profile(user data dir)被破坏。我曾经尝试不用quit,直接杀死chromedriver以及子进程,结果的确没有产生僵尸,但是profile被破坏,缓存就没有了,这样得不偿失。如果在杀死它们前先driver.service.stop()来停止服务,情况要好一些,profile没有被破坏,但是有一定几率导致session id失效而出错。

除了清理僵尸,还有一起其他的方法防止僵尸的产生,比如说修改SIG_IGN信号,dumb-init等方法,看了下面的说明就知道这些方法过时了。官方说不生产僵尸了,僵尸就会自然消失,消灭僵尸的方法自然过时了。

僵尸进程产生的原因

这些僵尸的正式名称叫做zygote 受精卵进程,参考下面的官网,它的本意是加快程序运行的时间和节约内存,但是为什么有时会产生,有时又没有,以及这些zygote 什么时候终止,这个没有解释。个人的猜想是chrome中有很多异步的操作,这些异步没有结束前就执行quit,那么在主进程结束前就创建zygote 进程,处理这些异步的后续事宜,如果这个时候贸然杀死它们,就会出错。

https://chromium.googlesource.com/chromium/src/+/master/docs/linux/zygote.md

官方的解决办法

像下面这样在启动时加上--no-zygote参数,就这么简单。这大概是官方4年前推出的解决办法。

options.add_argument('--no-zygote')

从此你告别了僵尸,你不用再考虑如何杀死这些僵尸,以及什么时候杀死它们,说实话你没有很好的办法来确定这些僵尸不再活动,只能从僵尸产生的时间来判断,比如说僵尸产生后一小时后杀死,这些都非常麻烦。

然而如果你的程序不小心还是有可能产生僵尸,但这些僵尸不是quit产生的,是你退出程序前没有关闭浏览器(没有quit),导致chromedriver失去父亲,只好让进程1来领养。

您可能感兴趣的与本文相关的镜像

Python3.9

Python3.9

Conda
Python

Python 是一种高级、解释型、通用的编程语言,以其简洁易读的语法而闻名,适用于广泛的应用,包括Web开发、数据分析、人工智能和自动化脚本

### 查找并杀死 Linux 系统中的僵尸进程 在 Linux 系统中,僵尸进程是指已经完成执行但其父进程尚未通过 `wait()` 系统调用回收其状态信息的进程。僵尸进程本身并不会消耗系统资源,但会占用进程 ID,可能导致系统资源耗尽。因此,及时清理僵尸进程非常重要。 以下是一些用于查找和杀死僵尸进程的命令及方法: 1. **查找僵尸进程** 使用 `ps` 命令结合 `grep` 找出僵尸进程: ```bash ps -A -ostat,ppid,pid,cmd | grep -e '^[Zz]' ``` 上述命令解释如下: - `-A` 参数列出所有进程。 - `-o` 参数自定义输出字段,包括 `stat`(状态)、`ppid`(父进程 ID)、`pid`(进程 ID)和 `cmd`(命令)。 - `grep -e '^[Zz]'` 用于过滤状态为 `Z` 或 `z` 的僵尸进程[^1]。 2. **杀死僵尸进程的父进程** 僵尸进程本身无法直接被杀死,因为它们已经处于终止状态。需要杀死其父进程,以便孤儿进程被 `init`(PID 为 1 的进程)接管并清理。以下是实现此目的的命令: ```bash ps -A -ostat,ppid,pid,cmd | grep -e '^[Zz]' | awk '{print $2}' | xargs kill -9 ``` 解释: - `awk '{print $2}'` 提取僵尸进程的父进程 ID(PPID)。 - `xargs kill -9` 强制杀死这些父进程。 3. **自动化清理僵尸进程** 如果需要定期清理僵尸进程,可以编写一个脚本并使用 `cron` 定时任务运行。以下是一个示例脚本: ```python import os import time while True: # 杀死僵尸进程的父进程 os.system('ps -A -ostat,ppid,pid,cmd | grep -e "^[Zz]" | awk \'{print $2}\' | xargs kill -9') time.sleep(5) # 每隔 5 秒检查一次 ``` 4. **其他方法** 如果僵尸进程是由特定程序(如 `chromedriver` 或其他服务)产生的,可以直接定位并杀死相关进程: ```bash ps -ef | grep 'chromedriver' | grep -v grep | awk '{print $2}' | xargs kill -9 ``` 该命令会查找所有与 `chromedriver` 相关的进程,并强制杀死它们[^2]。 5. **预防僵尸进程产生** - 确保父进程正确调用 `wait()` 或 `waitpid()` 系统调用来回收子进程的状态信息。 - 使用信号处理机制捕获 `SIGCHLD` 信号以自动回收子进程。 ### 注意事项 - 杀死父进程可能会导致依赖该父进程的其他子进程受到影响,请谨慎操作。 - 在生产环境中,建议先分析僵尸进程的来源并修复根本问题,而不是频繁清理僵尸进程。 ```bash # 示例综合命令 ps -A -ostat,ppid,pid,cmd | grep -e '^[Zz]' | awk '{print $2}' | xargs kill -9 ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值