Python 线程池/进程池 内存管理

本文介绍了一个使用concurrent.futures线程池爬取网站数据时遇到的内存溢出问题及解决方案。通过限制并行任务数量和及时清理已完成任务,有效降低了内存占用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

concurrent.futures 线程池/进程池内存管理

起因

之前进行爬虫任务的时候遇到了这么一个需求,1G 内存的机器跑爬虫,爬取一个网站的数据,之前使用的是这样一种方式:

 futures = list()
 with ThreadPool(max_workers=20) as exc:
      for tr in table.select("tr"):

          # 取线程执行结果
          future = exc.submit(self.get_asn, tr.strings)
          futures.append(future)

# 使用 as_completed 异步方式处理完成任务的线程
for future in as_completed(futures):
    result = future.result()
    # 拼接 asn.json 的 path
    file_path = result["asn"] + ".json"
    asn_file = os.path.join(self.base_data_path, file_path)

    with open(asn_file, "w", encoding="utf8") as f:
        f.write(json.dumps(result))

使用了 concurrent.futures 的 ThreadPoolExecutor submit 方法,因为开启了20个线程同时爬取,连接网站的速度还很快,任务很快就被处理完成了,可以看到我时完成一个任务的时候就进行写文件了操作,但是2分钟后很快程序就终止了,监控程序发现时由于程序内存占用达到 80% 被系统 Kill 掉了。

  • 为什么内存会爆呢?监控内存显示,程序处理完任务之后,内存并没有被立刻释放,而是有很长时间延迟之后才被释放( 在此吐槽 python GC)

改进方法:

参考 https://stackoverflow.com/questions/34770169/using-concurrent-futures-without-running-out-of-ram

# 允许同时进行的工作数
MAX_JOBS_IN_QUEUE = 1000


tr_list = table.select("tr")
tr_left = len(tr_list) - 1  # <----
tr_iter = iter(tr_list)  # <------
jobs = dict()

  with ThreadPool(max_workers=20) as exc:
      while tr_left:
          print("#" * 100, "TASK: {} <===>  JOB: {}".format(tr_left, len(jobs)))
          for tr in tr_iter:
              # 取线程执行结果
              job = exc.submit(self.get_asn, tr.strings)
              jobs[job] = tr
              if len(jobs) > MAX_JOBS_IN_QUEUE:
                  break  # limit the job submission for now job

          # 使用 as_completed 异步方式处理任务线程
          for job in as_completed(jobs):
              tr_left -= 1  # one down - many to go...   <---
              result = job.result()
              # 从字典中删除结果,因为我们不需要存储它
              del jobs[job]

              # 拼接 asn.json 的 path
              file_path = result["asn"] + ".json"
              asn_file = os.path.join(self.base_data_path, file_path)

              with open(asn_file, "w", encoding="utf8") as f:
                  f.write(json.dumps(result))
              break

改进后内存在切换 html 爬取的时候,会偶尔会升高一下,最高 65%,平均在 35% 左右。

  • ProcessPoolExecutor 进程同理
### 线程与进程的区别 线程和进程是操作系统中两个重要的概念,它们的主要区别如下: - **定义**:进程是系统进行资源分配的基本单位,而线程是进程中执行运算的最小单位[^3]。每个进程都有独立的地址空间,而同一进程内的多个线程共享该进程的地址空间。 - **内存开销**:由于线程共享进程的内存空间,因此创建和销毁线程的开销比进程小得多[^1]。 - **通信机制**:同一进程内的线程可以通过直接访问共享内存进行高效的通信,而不同进程之间的通信则需要通过进程间通信(IPC)机制实现,如管道、消息队列等[^3]。 - **调度方式**:线程的切换通常由操作系统内核完成,但因为线程共享内存空间,其上下文切换的开销比进程小。 ### 线程池进程池的区别 线程池进程池都是为了提高并发性能而设计的工具,但它们在具体应用和性能上存在显著差异: - **适用场景**: - 线程池更适合用于 **I/O 密集型任务**,例如文件读写、网络请求等。这是因为线程在等待 I/O 操作完成可以释放 CPU 资源,从而让其他线程运行[^2]。 - 进程池更适合用于 **CPU 密集型任务**,例如复杂的数学计算或图像处理。这是因为 Python 的全局解释器锁(GIL)限制了多线程程序无法真正并行执行 CPU 密集型任务,而多进程可以绕过 GIL 的限制,充分利用多核 CPU 的计算能力[^4]。 - **性能对比**: - 创建线程的开销小于创建进程的开销,因此线程池任务频繁提交和完成的情况下表现更好。 - 进程池虽然创建成本高,但在处理大量计算密集型任务,能够更高效地利用多核 CPU 的优势[^4]。 - **资源共享**: - 同一进程中的线程共享内存空间,因此在线程池中,线程可以直接访问共享数据结构,减少了数据传递的复杂性。 - 不同进程之间没有直接的内存共享,必须通过 IPC 机制进行通信,这会增加一定的性能开销[^3]。 ### 示例代码 以下是一个简单的线程池进程池的使用示例: ```python from concurrent.futures import ThreadPoolExecutor, ProcessPoolExecutor import time def cpu_bound_task(n): return sum(i * i for i in range(n)) def io_bound_task(delay): time.sleep(delay) return delay # 使用线程池处理 I/O 密集型任务 with ThreadPoolExecutor() as thread_pool: results = list(thread_pool.map(io_bound_task, [1, 2, 3])) print("线程池结果:", results) # 使用进程池处理 CPU 密集型任务 with ProcessPoolExecutor() as process_pool: results = list(process_pool.map(cpu_bound_task, [1000000, 2000000, 3000000])) print("进程池结果:", results) ``` ###
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值