python 进程池的基本使用

半新半旧

已于 2025-04-14 17:11:30 修改

阅读量413

点赞数 4

分类专栏： # python 基础文章标签： python

于 2025-02-23 21:34:22 首次发布

本文链接：https://blog.youkuaiyun.com/wangqiang996/article/details/145816161

版权

python 基础专栏收录该内容

7 篇文章

订阅专栏

Python 进程池：Pool任务调度实现

在现代计算机系统重，处理器核心数量的增加为并行计算提供了强大的硬件基础。Python的 multiprocessing 模块中的进程池（Pool）机制，为开发者提供了
一个高效且易用的并行处理框架。

通过进程池，可以轻松地将计算密集型任务分配到多个处理器核心上执行，显著提升程序的执行效率。
进程池是一种预先创建多个进程实例的并行处理机制。它通过维护一组工作进程，避免了频繁创建和销毁进程带来的系统开销。当有新的任务需要执行时，进程池会自动
将任务分配给空闲的工作进程，实现任务的并行处理。这种机制特别适合需要重复执行相似任务的场景，如批量数据处理、并行计算等。

1. 任务调度原理

1.1 任务分配机制

Pool 的任务调度采用了工作队列模式，它维护了一个任务队列和结果队列。当我们提交任务时，任务会被放入任务队列；工作进程会从队列中获取任务并执行，执行结果则
被放入结果队列。这个过程是自动进行的，开发者无需关系具体的调度细节。

1.2. 进程池管理策略

进程池在创建时就会初始化指定数量的工作进程，这些进程在整个池的生命周期内持续存在。当某个进程在执行任务时发生异常，进程池会自动创建新的进程来替代它，
确保可用进程数量的稳定性。

from multiprocessing import Pool
import time
import os


def work_function(x):
    """
    工作函数：模拟耗时计算任务
    """
    print(f"进程 {os.getpid()} 开始处理任务 {x}")
    time.sleep(3)
    result = x * x
    print(f"进程 {os.getpid()} 完成任务 {x}")
    return result


def main():
    # 创建进程池，使用4个工作进程
    with Pool(4) as pool:
        tasks = range(10)
        # 使用 map 方法并行处理任务
        results = pool.map(work_function, tasks)
        print("所有任务完成,结果：", results)


if __name__ == '__main__':

1.3 高级任务提交方法

1.3.1 异步任务处理

除了同步的map 方法，Pool还提供了异步任务的提交方式。

通过apply_async 和 map_async方法，可以实现更灵活的任务调度：

from multiprocessing import Pool
import time
import os


def long_time_task(name):
    """模拟长时间运行的任务"""
    print(f"运行任务 {name} ({os.getpid()})")
    time.sleep(2)
    return f"任务 {name} 的结果"


def process_async_tasks():
    with Pool(4) as pool:
        # 使用 apply_async 提交多个任务
        results = []
        for i in range(5):
            result = pool.apply_async(long_time_task, args=(i,))
            results.append(result)

        # 获取所有任务结果
        for result in results:
            print(f"获取结果：", result.get(timeout=3))


if __name__ == '__main__':
    start_time = time.time()
    process_async_tasks()
    end_time = time.time()
    print(f"总执行时间: {end_time - start_time:.2f}秒")

1.3.2 任务回调机制

Pool 支持异步任务设置回调函数，这在处理任务完成后的后续操作时非常有用：

from multiprocessing import Pool
import time
import os


def task(x):
    """执行主要计算任务"""
    time.sleep(1)
    return x * x


def callback_func(result):
    """任务完成后的回调函数"""
    print(f"任务完成，结果为：{result}")


def main_with_callback():
    with Pool(3) as pool:
        for i in range(5):
            pool.apply_async(task, args=(i,),callback = callback_func)
        # 等待所有任务完成
        pool.close()
        pool.join()


if __name__ == '__main__':
    start_time = time.time()
    main_with_callback()
    end_time = time.time()
    print(f"总执行时间: {end_time - start_time:.2f}秒")

2.实际应用场景

2.1 批量文件处理系统

from multiprocessing import Pool
import time
import os


def task(x):
    """执行主要计算任务"""
    time.sleep(1)
    return x * x


def callback_func(result):
    """任务完成后的回调函数"""
    print(f"任务完成，结果为：{result}")


def main_with_callback():
    with Pool(3) as pool:
        for i in range(5):
            pool.apply_async(task, args=(i,),callback = callback_func)
        # 等待所有任务完成
        pool.close()
        pool.join()


if __name__ == '__main__':
    start_time = time.time()
    main_with_callback()
    end_time = time.time()
    print(f"总执行时间: {end_time - start_time:.2f}秒")

3.性能优化

进程数量的选择对性能有重要影响。一般建议将进程数设置为CPU核心数或略高于核心数。但在IO密集型任务中，可以适当增加进程数。过多的进程反而会因为上下文切换导致性能下降。

对于不同类型的任务，应选择合适的任务提交方式。计算密集型任务适合使用map方法，而IO密集型任务可能更适合使用apply_async。这是因为map方法会阻塞等待所有任务完成，而apply_async允许更灵活的任务调度。

在处理大量小任务时，应考虑任务分块来减少调度开销。可以将多个小任务合并为一个大任务，减少进程间通信的次数：

from multiprocessing import Pool
import time

def process_chunk(chunk):
    """处理一组任务"""
    return [x * x for x in chunk]

def chunked_processing(data, chunk_size=1000):
    # 将数据分块
    chunks = [data[i:i + chunk_size] 
             for i in range(0, len(data), chunk_size)]
    
    with Pool() as pool:
        # 处理数据块
        results = pool.map(process_chunk, chunks)
    
    # 合并结果
    return [item for sublist in results for item in sublist]

# 使用示例
if __name__ == '__main__':
    large_data = range(10000)
    result = chunked_processing(large_data)