Python 多线程与多进程实战

Python多线程与多进程实战解析

最新推荐文章于 2025-07-25 19:47:40 发布

原创最新推荐文章于 2025-07-25 19:47:40 发布 · 784 阅读

14 ·

CC 4.0 BY-SA版权

文章标签：

#python #java #开发语言

在 Python 开发中，面对复杂的任务和大量的数据处理时，如何提高程序的执行效率是一个关键问题。多线程和多进程是两种常用的解决方案，它们可以帮助我们充分利用计算机的多核 CPU 资源，实现并发执行，从而显著提升程序的性能。本文将通过具体的实战案例，详细介绍 Python 多线程与多进程的使用方法和注意事项。

一、多线程基础

（一）线程的概念

线程是操作系统能够进行调度的最小单位。在 Python 中，可以使用 `threading` 模块来创建和管理线程。多线程适用于 I/O 密集型任务，例如文件读写、网络请求等场景，因为这些任务在等待 I/O 操作完成时，CPU 可以切换到其他线程执行，从而提高程序的整体效率。

（二）创建线程

python
import threading

def print_numbers():
for i in range(5):
print(i)

创建线程
thread = threading.Thread(target=print_numbers)
# 启动线程
thread.start()
# 等待线程结束
thread.join()
```

在上面的代码中，我们定义了一个 `print_numbers` 函数，然后创建了一个线程对象 `thread`，并将其目标函数设置为 `print_numbers`。通过调用 `start()` 方法启动线程，最后使用 `join()` 方法等待线程结束，确保主线程在子线程结束后再继续执行。

（三）线程同步

当多个线程同时访问共享资源时，可能会出现数据不一致的问题。为了解决这个问题，我们需要使用线程同步机制。Python 中常用的同步原语有互斥锁（`Lock`）、条件变量（`Condition`）、信号量（`Semaphore`）等。

python
import threading

创建互斥锁
lock = threading.Lock()

def increment(counter):
    for _ in range(100000):
        lock.acquire() # 获取锁
        counter[0] += 1
        lock.release() # 释放锁

共享资源
counter = [0]

创建两个线程
thread1 = threading.Thread(target=increment, args=(counter,))
thread2 = threading.Thread(target=increment, args=(counter,))

启动线程
thread1.start()
thread2.start()

等待线程结束
thread1.join()
thread2.join()

print(counter[0]) # 输出结果应该是 200000

在上述代码中，我们使用互斥锁 `lock` 来保护共享资源 `counter`。当一个线程获取锁后，其他线程将被阻塞，直到锁被释放。这样可以确保每次只有一个线程可以修改共享资源，避免了数据竞争问题。

## 二、多进程基础

（一）进程的概念

进程是操作系统进行资源分配和调度的基本单位。与线程不同，进程之间是独立的，每个进程拥有自己的内存空间和资源。在 Python 中，可以使用 `multiprocessing` 模块来创建和管理进程。多进程适用于 CPU 密集型任务，例如计算密集型的算法、数据处理等场景，因为多个进程可以同时利用多核 CPU 的计算能力，从而提高程序的执行效率。

（二）创建进程

python
import multiprocessing

def print_numbers():
for i in range(5):
print(i)

创建进程
process = multiprocessing.Process(target=print_numbers)
启动进程
process.start()
等待进程结束
process.join()

在上面的代码中，我们定义了一个 `print_numbers` 函数，然后创建了一个进程对象 `process`，并将其目标函数设置为 `print_numbers`。通过调用 `start()` 方法启动进程，最后使用 `join()` 方法等待进程结束，确保主进程在子进程结束后再继续执行。

（三）进程间通信

由于进程之间是独立的，它们不能直接访问彼此的内存空间。为了实现进程间的通信，Python 提供了多种通信机制，如队列（`Queue`）、管道（`Pipe`）、共享内存（`Value`、`Array`）等。

python
import multiprocessing

创建队列
queue = multiprocessing.Queue()

def producer(queue):
for i in range(5):
queue.put(i) # 向队列中放入数据

def consumer(queue):
    while True:
        item = queue.get() # 从队列中取出数据
        if item is None:
            break
        print(item)

创建生产者和消费者进程
producer_process = multiprocessing.Process(target=producer, args=(queue,))
consumer_process = multiprocessing.Process(target=consumer, args=(queue,))

启动进程
producer_process.start()
consumer_process.start()

向队列中放入一个 None 作为结束信号
queue.put(None)

等待进程结束
producer_process.join()
consumer_process.join()

在上述代码中，我们使用队列 `queue` 来实现生产者和消费者之间的通信。生产者进程向队列中放入数据，消费者进程从队列中取出数据并进行处理。当生产者进程完成数据生产后，向队列中放入一个 `None` 作为结束信号，消费者进程在取出 `None` 后结束运行。

三、多线程与多进程的比较

| 特性 | 多线程 | 多进程 |
| --- | --- | --- |
| 资源共享 | 共享内存空间，容易出现数据竞争问题 | 每个进程有独立的内存空间，需要使用进程间通信机制 |
| 开销 | 创建和切换线程的开销较小 | 创建和切换进程的开销较大 |
| 适用场景 | I/O 密集型任务 | CPU 密集型任务 |
| GIL 限制 | 受到全局解释器锁（GIL）的限制，同一时刻只有一个线程可以执行 Python 字节码 | 不受 GIL 限制，可以充分利用多核 CPU 的计算能力 |

在 Python 中，由于全局解释器锁（GIL）的存在，多线程在执行 CPU 密集型任务时并不能真正实现并发执行。GIL 是一种机制，它确保同一时刻只有一个线程可以执行 Python 字节码。因此，在 CPU 密集型任务中，多线程并不能提高程序的执行效率，而多进程则可以绕过 GIL 的限制，充分利用多核 CPU 的计算能力。

四、实战案例：爬取网站数据

假设我们需要爬取一个网站上的数据，该网站有多个页面，每个页面包含大量的数据。我们可以使用多线程或多进程来提高爬虫的执行效率。

（一）使用多线程爬取数据

python
import threading
import requests
from bs4 import BeautifulSoup

def crawl_page(url):
    response = requests.get(url)
    soup = BeautifulSoup(response.text, 'html.parser')
    # 解析页面数据
    data = soup.find_all('div', class_='data')
    print(data)

def crawl_website(urls):
    threads = []
    for url in urls:
        thread = threading.Thread(target=crawl_page, args=(url,))
        thread.start()
        threads.append(thread)
    for thread in threads:
        thread.join()

网站页面 URL 列表
urls = ['http://example.com/page1', 'http://example.com/page2', 'http://example.com/page3']

crawl_website(urls)

在上述代码中，我们定义了一个 `crawl_page` 函数，用于爬取单个页面的数据。然后在 `crawl_website` 函数中，我们创建多个线程，每个线程负责爬取一个页面的数据。通过多线程并发执行，可以同时向多个页面发送请求，从而提高爬虫的执行效率。

（二）使用多进程爬取数据

`python
import multiprocessing
import requests
from bs4 import BeautifulSoup

def crawl_page(url):
    response = requests.get(url)
    soup = BeautifulSoup(response.text, 'html.parser')
     解析页面数据
    data = soup.find_all('div', class_='data')
    print(data)

def crawl_website(urls):
    processes = []
    for url in urls:
        process = multiprocessing.Process(target=crawl_page, args=(url,))
        process.start()
        processes.append(process)
    for process in processes:
        process.join()

网站页面 URL 列表
urls = ['http://example.com/page1', 'http://example.com/page2', 'http://example.com/page3']

crawl_website(urls)

在上述代码中，我们使用多进程代替多线程来爬取网站数据。与多线程类似，我们创建多个进程，每个进程负责爬取一个页面的数据。由于多进程不受 GIL 限制，可以充分利用多核 CPU 的计算能力，因此在爬取大量数据时，多进程的执行效率可能会更高。

五、注意事项

1. 线程安全：在使用多线程时，要注意线程安全问题。当多个线程同时访问共享资源时，要使用线程同步机制来避免数据竞争和不一致问题

2. 进程间通信：在使用多进程时，要注意进程间通信的开销。进程间通信需要通过队列、管道等机制来实现，这些通信机制可能会增加程序的复杂度和开销。因此，在设计程序时，要合理选择进程间通信的方式，尽量减少不必要的通信。

3. 资源限制：无论是多线程还是多进程，都要注意资源限制问题。创建过多的线程或进程可能会导致系统资源耗尽，从而影响程序的正常运行。因此，在实际应用中，要根据系统的资源情况和任务的需求，合理控制线程和进程的数量。

4. 异常处理：在多线程和多进程中，要注意异常处理问题。当一个线程或进程出现异常时，可能会导致整个程序崩溃。因此，要在每个线程或进程中添加异常处理代码，捕获并处理可能出现的异常，确保程序的健壮性。

六、总结

通过本文的介绍，我们了解了 Python 多线程与多进程的基本概念、使用方法和注意事项。在实际开发中，我们可以根据任务的特点和需求，选择合适的并发模型来提高程序的执行效率。多线程适用于 I/O 密集型任务，可以减少等待时间，提高程序的响应速度；多进程适用于 CPU 密集型任务，可以充分利用多核 CPU 的计算能力，提高程序的处理速度。同时，我们要注意线程安全、进程间通信、资源限制和异常处理等问题，确保程序的稳定运行。

希望本文对你有所帮助，如果你对 Python 多线程与多进程有更深入的了解或实践经验，欢迎在评论区分享你的见解和经验。让我们一起学习、一起进步！