三行Python代码，让数据预处理速度提高2到6倍_预处理加快读取速度-优快云博客

本文链接：https://blog.youkuaiyun.com/huang5333/article/details/123349658

本文介绍了如何使用Python的concurrent.futures模块，通过3行代码将数据预处理速度提升2到6倍。通过并行化运算，特别是在处理大量图片等数据时，可以显著提高效率。文中以调整图片分辨率为例，展示了并行处理前后的运行时间对比，并指出了并行处理的适用场景和限制。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在 Python 中，我们可以找到原生的并行化运算指令。本文可以教你仅使用 3 行代码，大大加快数据预处理的速度。

在默认情况下，Python 程序是单个进程，使用单 CPU 核心执行。而大多数硬件都至少搭载了双核处理器。这意味着如果没有进行优化，在数据预处理的时候会出现「一核有难九核围观」的情况——超过 50% 的算力都会被浪费。

幸运的是，Python 库中内建了一些隐藏的特性，可以让我们充分利用所有 CPU 核心的能力。通过使用 Python 的 concurrent.futures 模块，我们只需要 3 行代码就可以让一个普通的程序转换成适用于多核处理器并行处理的程序。

标准方法

让我们举一个简单的例子，在单个文件夹中有一个图片数据集，其中有数万张图片。在这里，我们决定使用 1000 张。我们希望在所有图片被传递到深度神经网络之前将其调整为 600×600 像素分辨率的形式。以下是你经常会在 GitHub 上看到的标准 Python 代码：

import glob
import osimport cv2### Loop through all jpg files in the current folder
### Resize each one to size 600x600
for image_filename in glob.glob("*.jpg"):
### Read in the image data
img = cv2.imread(image_filename)
### Resize the image
img = cv2