Python 多进程池中子进程挂了导致进程不能结束的问题小结

最新推荐文章于 2024-01-04 11:24:54 发布

原创最新推荐文章于 2024-01-04 11:24:54 发布 · 9.7k 阅读

18 ·

CC 4.0 BY-SA版权

文章标签：

#python #多线程 #多进程

本文探讨了Python multiprocessing模块在使用Pool时遇到的问题，即当子进程异常终止时，主进程可能无法正常关闭。这个问题源于Python的一个bug。文章提供了两种解决方法：一是使用multiprocessing.Process创建自定义进程池，二是利用concurrent.futures模块。此外，还提到了根据任务类型选择合适的线程或进程数量，并给出了多线程/进程核数配置的建议。

部署运行你感兴趣的模型镜像

问题：Python multiprocessing pool not shutting down while child processes is oom

首先说明一下——Python 的多线程是鸡肋，不是真正意义上的多线程。

由于GIL的存在，一个python进程中只能运行一个线程，所以并不是真正意义上的多线程。python的多进程相当于c++的多线程。

参考：Python 多进程与多线程 - 简书

开篇点题：在使用python的multiprocessing中的pool时，会出现子进程因为各种原因挂了之后主进程任务停不下来的情况。这是因为主进程没能发现子进程挂了而判定结束，从而卡在了这个地方，是python的一个bug。解决办法有两个，且看下文分解～

这里引用一段代码：

import os
import signal
from multiprocessing import Pool
from random import choice
from subprocess import run, PIPE
from time import sleep


def run_task(task):
    target_process_id, n = task
    print(f'Processing item {n} in process {os.getpid()}.')
    delay = n + 1
    sleep(delay)
    if n == 0:
        print(f'Item {n} killing process {target_process_id}.')
        os.kill(target_process_id, signal.SIGKILL)
    else:
        print(f'Item {n} finished.')
    return n, delay


def main():
    print('Starting.')
    pool = Pool()

    ps_output = run(['ps', '-opid', '--no-headers', '--ppid', str(os.getpid())],
                    stdout=PIPE, encoding='utf8')
    child_process_ids = [int(line) for line in ps_output.stdout.splitlines()]
    target_process_id = choice(child_process_ids[1:-1])

    tasks = ((target_process_id, i) for i in range(10))
    for n, delay in pool.imap_unordered(run_task, tasks):
        print(f'Received {delay} from item {n}.')

    print('Closing.')
    pool.close()
    pool.join()
    print('Done.')


if __name__ == '__main__':
    main()

这段代码用了multiprocessing的pool来实现多进程，但是在子进程中使用kill把另一个子进程给杀死了，运行的结果就是主进程无法自动退出。本人遇到了类似的情况，也尝试了各种方法，比如try来捕捉异常等，但可能是由于内存OOM导致异常捕捉不到，导致主进程无法正常退出且不会报错...

这个原因开篇也提了，是python的一个bug，所以这里说一下解决方法：

一、自己用multiprocessing.Process做一个小的进程池

Process在遇到问题挂掉的时候，主进程能发现并报错，流程也不会卡住，所以可以使用它来代替。

1、根据cpu核数设置进程数cpu_num

2、将要处理的数据ids均分为cpu_num份，得到id_batch

3、将每个id_batch作为multiprocessing.Process子进程的输入

4、close结束

ps.将子进程结果输出可以用multiprocessing.dict()和multiprocessing.queue()，后者好像是更加进程安全的。

二、使用concurrent.futures来实现进程池（python版本>3.2）

pool的bug并没有直接在multiprocessing中解决，而是在concurrent.futures中解了，所以直接用也行～

参考：使用concurrent.futures模块并发，实现进程池、线程池 - 听风。 - 博客园