本文来源公众号“马哥Linux运维”,仅用于学术分享,侵权删,干货满满。
原文链接:深入理解Python多进程:从基础到实战
引言
在Python编程中,多进程是一种重要的并发编程方式,可以让我们充分利用多核处理器的计算能力,实现并行处理任务,提高程序的运行效率。与多线程相比,多进程具有独立的内存空间,避免了全局解释器锁(GIL)的影响,因此更适合于CPU密集型的任务。
Python多进程基础
在Python中,可以使用multiprocessing
模块来创建和管理进程。通过Process
类可以创建新的进程,通过Pool
类可以创建进程池,实现并行处理任务。多进程之间可以通过队列(Queue
)、管道(Pipe
)等方式进行通信,从而实现数据共享和协作。
为什么选择多进程
-
充分利用多核处理器:多进程可以同时利用多个CPU核心,实现并行处理,加快任务执行速度。
-
避免GIL的影响:Python的全局解释器锁(GIL)限制了多线程并发执行时的效率,而多进程避免了这一限制,可以更好地利用多核处理器。
-
提高程序稳定性:由于多进程拥有独立的内存空间,进程之间互不影响,因此在处理一些需要隔离环境的任务时更加稳定可靠。
-
适用于CPU密集型任务:对于需要大量计算的任务,多进程能够更好地利用计算资源,提高程序的执行效率。
总之,选择多进程可以让我们更好地利用计算资源,提高程序的运行效率,同时避免了一些多线程并发编程中的问题,是一种值得掌握的并发编程方式。
第一章:Python进程与线程
进程与线程概念介绍
-
进程:进程是程序的一次执行过程,是系统资源分配的基本单位。每个进程都有自己独立的内存空间,包括代码段、数据段、堆栈等。进程之间相互独立,通信需要特殊手段。
-
线程:线程是进程中的一个执行流,是CPU调度的基本单位。同一进程内的线程共享相同的内存空间,包括代码段、数据段等。线程之间可以直接访问共享的内存,通信更方便。
Python中的进程模型
在Python中,可以使用multiprocessing
模块来创建和管理进程。通过Process
类可以创建新的进程,实现并行处理任务。每个Python进程都有自己独立的解释器和内存空间,进程之间数据不共享,需要通过特定方式进行通信。
线程与进程的区别
-
资源占用:线程比进程轻量,创建和销毁线程的开销小,占用的资源少。进程拥有独立的内存空间,资源消耗较大。
-
通信方式:线程之间共享同一进程的内存空间,可以直接访问共享数据,通信更方便。进程之间通信需要特殊手段,如队列、管道等。
-
并发性:多线程可以实现并发执行,但受全局解释器锁(GIL)限制,无法利用多核处理器。多进程可以充分利用多核处理器,实现真正的并行处理。
-
稳定性:由于线程共享内存,线程之间的错误可能会影响整个进程。而进程之间相互独立,一个进程崩溃不会影响其他进程。
-
适用场景:线程适合I/O密集型任务,如网络请求、文件操作等;进程适合CPU密集型任务,如大量计算、图像处理等。
总之,线程适合处理需要频繁I/O操作的任务,进程适合处理需要大量计算的任务。在Python中,多线程受到全局解释器锁的限制,多进程能更好地利用多核处理器,选择合适的并发编程方式可以提高程序的运行效率。
第二章:Python内置的multiprocessing模块
multiprocessing模块介绍
-
multiprocessing
是 Python 中用于支持多进程编程的内置模块,可以实现并行处理任务,充分利用多核处理器。
Process类和Pool类详解
-
Process类:
multiprocessing.Process
类用于创建新的进程。通过实例化Process
类并传入要执行的函数,可以创建一个新的进程。调用start()
方法启动进程,调用join()
方法等待进程结束。每个Process
实例都有自己独立的内存空间。 -
Pool类:
multiprocessing.Pool
类用于创建进程池,可以方便地管理多个进程。通过Pool
类的map()
、apply()
等方法,可以将任务分配给进程池中的多个进程并行执行。进程池会自动管理进程的创建和销毁,提高了并行处理的效率。
进程间通信(Queue, Pipe, Pickle等)
-
Queue:
multiprocessing.Queue
类提供了进程间通信的队列。多个进程可以通过共享的队列进行数据交换,实现进程间的通信。队列是线程/进程安全的,可以在多个进程之间安全地传递数据。 -
Pipe:
multiprocessing.Pipe
类提供了进程间通信的管道。管道包含两个连接,每个连接对应一个进程,可以双向传递数据。通过Pipe
可以实现两个进程之间的通信。 -
Pickle:
pickle
模块用于序列化和反序列化 Python 对象,可以将对象转换为字节流进行传输。在进程间通信中,可以使用pickle
将对象序列化后传输,再在另一端反序列化得到原始对象。
通过使用multiprocessing
模块提供的Process
类、Pool
类以及进程间通信的机制,可以方便地实现并行处理任务,并实现不同进程之间的数据交换和通信,从而提高程序的运行效率和灵活性。
第三章:进程池与异步编程
Pool类的使用与优化
-
使用:
multiprocessing.Pool
的主要用法是通过apply()
、map()
、starmap()
等方法将任务提交给进程池,然后通过Pool
的close()
和join()
方法关闭和等待所有进程完成。例如: