Python数据处理脚本获得4倍提速，你需要加上这3行代码

最新推荐文章于 2023-12-14 09:41:08 发布

程序员老K

最新推荐文章于 2023-12-14 09:41:08 发布

阅读量722

点赞数

文章标签： Python

本文链接：https://blog.youkuaiyun.com/KK12345677/article/details/100104421

版权

本文介绍如何通过Python的concurrent.futures模块，使用3行代码将数据处理脚本并行化，实现4倍速度提升。通过创建Process Pool，让Python脚本在多核CPU上并行运行，提高数据预处理效率，如图像处理、日志分析等场景。同时，解释了全局解释器锁（GIL）与并行处理的关系。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Python是一门非常适合处理数据和自动化完成重复性工作的编程语言，我们在用数据训练机器学习模型之前，通常都需要对数据进行预处理，而Python就非常适合完成这项工作，比如需要重新调整几十万张图像的尺寸，用Python没问题！你几乎总是能找到一款可以轻松完成数据处理工作的Python库。

然而，虽然Python易于学习，使用方便，但它并非运行速度最快的语言。默认情况下，Python程序使用一个CPU以单个进程运行。不过如果你是在最近几年配置的电脑，通常都是四核处理器，也就是有4个CPU。这就意味着在你苦苦等待Python脚本完成数据处理工作时，你的电脑其实有75%甚至更多的计算资源就在那闲着没事干！

今天就教大家怎样通过并行运行Python函数，充分利用你的电脑的全部处理能力。得益于Python的 concurrent.futures 模块，我们只需3行代码，就能将一个普通数据处理脚本变为能并行处理数据的脚本，提速4倍。

普通Python处理数据方法

比方说，我们有一个全是图像数据的文件夹，想用Python为每张图像创建缩略图。

下面是一个短暂的脚本，用Python的内置glob函数获取文件夹中所有JPEG图像的列表，然后用Pillow图像处理库为每张图像保存大小为128像素的缩略图：

import glob
import os
from PIL import Image

def make_image_thumbnail(filename):
    # 缩略图会被命名为"<original_filename>_thumbnail.jpg"
    base_filename, file_extension = os.path.splitext(filename)
    thumbnail_filename = f"{base_filename}_thumbnail{file_extension}"

    # 创建和保存缩略图
    image = Image.open(filename)
    image.thumbnail(size=(128, 128))
    image.save(thumbnail_filename, "JPEG")

    return thumbnail_filename

# 循环文件夹中所有JPEG图像，为每张图像创建缩略图
for image_file in glob.glob("*.jpg"):
    thumbnail_file = make_image_thumbnail(image_file)

print(f"A thumbnail for {image_file} was saved a