23、Python 多进程编程与进程间通信深度解析

wolf犭良

于 2025-04-03 09:22:36 发布

阅读量545

点赞数 2

分类专栏： python 文章标签： python 开发语言

本文链接：https://blog.youkuaiyun.com/ldz_wolf/article/details/146971478

版权

python 专栏收录该内容

29 篇文章

订阅专栏

Python 多进程编程与进程间通信深度解析

引言

在CPU密集型任务场景下，Python的多线程受限于GIL全局解释器锁，无法真正实现并行计算。本文深入探讨multiprocessing模块，从基础进程创建到高级IPC机制，结合分布式计算案例与性能调优策略，帮助开发者掌握多核时代的高效编程范式。

一、多进程与多线程的本质差异

1.1 GIL机制的限制

# 多线程执行CPU密集型任务
import threading

def countdown():
    x = 0
    while x < 10_000_000:
        x += 1

if __name__ == '__main__':
    threads = [threading.Thread(target=countdown) for _ in range(4)]
    for t in threads:
        t.start()
    for t in threads:
        t.join()
    print("多线程执行完成")  # 实际无法并行执行

关键结论：

多线程适合I/O密集型任务（网络请求/文件操作）
多进程突破GIL限制，适用于CPU密集型计算（科学计算/图像处理）

1.2 内存模型对比

特性	多进程	多线程
内存空间	独立内存空间	共享内存空间
数据共享	需IPC机制	天然共享
创建开销	高（系统级进程创建）	低（用户级线程切换）
容错性	进程崩溃不影响主程序	线程崩溃导致程序终止
调试难度	较高（需处理IPC同步）	较低

二、进程创建与进程池实战

2.1 使用Process类

from multiprocessing import Process
import os

def task(name):
    print(f'子进程 {name} PID: {os.getpid()}')

if __name__ == '__main__':
    processes = []
    for i in range(3):
        p = Process(target=task, args=(f'Process-{i}',))
        processes.append(p)
        p.start()
    
    for p in processes:
        p.join()  # 等待所有子进程结束
    print("主进程结束")

注意事项：

Windows系统必须使用if __name__ == '__main__'防止递归创建进程
args参数必须可序列化（pickle协议）

2.2 进程池高级应用

from multiprocessing import Pool, cpu_count
import time

def cube(x):
    print(f"处理 {x} 的进程ID: {os.getpid()}")
    return x ** 3

if __name__ == '__main__':
    with Pool(processes=cpu_count()) as pool:
        # 同步映射
        result = pool.map(cube, range(10))
        print("同步结果:", result)
        
        # 异步提交
        async_result = pool.apply_async(cube, (20,))
        print("异步结果:", async_result.get(timeout=1))
        
    print("进程池任务全部完成")

技巧：

pool.map()自动分配任务，保持输入顺序
apply_async返回AsyncResult对象，支持超时和回调
使用with语句自动关闭进程池

三、进程间通信（IPC）四大方案

3.1 Queue队列通信

from multiprocessing import Process, Queue

def producer(q):
    for i in range(5):
        q.put(f'消息-{i}')
        print(f"生产者发送: 消息-{i}")

def consumer(q):
    while True:
        item = q.get()
        if item is None:  # 哨兵值终止循环
            break
        print(f"消费者接收: {item}")

if __name__ == '__main__':
    q = Queue()
    p1 = Process(target=producer, args=(q,))
    p2 = Process(target=consumer, args=(q,))
    p1.start()
    p2.start()
    p1.join()
    q.put(None)  # 发送结束信号
    p2.join()

3.2 Pipe双向管道

from multiprocessing import Process, Pipe

def worker(conn):
    conn.send("子进程消息")
    print("子进程收到:", conn.recv())
    conn.close()

if __name__ == '__main__':
    parent_conn, child_conn = Pipe()
    p = Process(target=worker, args=(child_conn,))
    p.start()
    print("主进程收到:", parent_conn.recv())
    parent_conn.send("主进程回复")
    p.join()

3.3 共享内存

from multiprocessing import Process, Value, Array, Lock

def increment(shared_num, lock):
    with lock:
        shared_num.value += 1

if __name__ == '__main__':
    counter = Value('i', 0)
    lock = Lock()
    procs = [Process(target=increment, args=(counter, lock)) for _ in range(100)]
    
    for p in procs:
        p.start()
    for p in procs:
        p.join()
    
    print("最终结果:", counter.value)  # 正确输出100

3.4 Manager服务

from multiprocessing import Manager, Process

def dict_worker(shared_dict, key):
    shared_dict[key] = key.upper()

if __name__ == '__main__':
    with Manager() as manager:
        shared_dict = manager.dict()
        procs = [Process(target=dict_worker, args=(shared_dict, chr(97+i))) for i in range(5)]
        
        for p in procs:
            p.start()
        for p in procs:
            p.join()
            
        print("共享字典:", shared_dict)

四、高级主题与性能调优

4.1 僵尸进程处理方案

import signal

# 忽略子进程退出信号
signal.signal(signal.SIGCHLD, signal.SIG_IGN)

# 或者在父进程中使用waitpid
import os
import time

pid = os.fork()
if pid == 0:
    print("子进程运行")
    time.sleep(2)
else:
    os.waitpid(pid, 0)  # 阻塞等待子进程结束
    print("父进程回收子进程")

4.2 IPC性能对比

方法	传输速度	数据量限制	适用场景
Queue	中	受内存限制	生产者-消费者模式
Pipe	高	无	双工通信/少量数据传输
共享内存	极高	系统内存	高频小数据交换
Manager	低	网络限制	跨机器分布式通信