使用PIL库中的Image.open()函数打开指定路径的图像

代码解析：PIL库图像预处理与批次转换

最新推荐文章于 2025-09-19 16:07:11 发布

原创最新推荐文章于 2025-09-19 16:07:11 发布 · 2.7k 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #人工智能

本文详细解释了如何使用Python的PIL库进行图像的RGB模式转换，并通过torch.unsqueeze操作将单图转换为批次，以便于深度学习模型的输入。还介绍了img.shape的含义，展示了预处理后的图像形状变化。

解释代码如下：

original_img = Image.open(img_path).convert('RGB')

# from pil image to tensor, do not normalize image
data_transform = transforms.Compose([transforms.ToTensor()])
img = data_transform(original_img)
# expand batch dimension
img = torch.unsqueeze(img, dim=0)

original_img = Image.open(img_path).convert('RGB'): 这行代码使用PIL库中的Image.open()函数打开指定路径的图像，并通过.convert('RGB')将图像转换为RGB模式。这一步是为了确保图像具有三个通道（红色、绿色和蓝色）。

img = torch.unsqueeze(img, dim=0)：这行代码通过torch.unsqueeze()函数在第0维度上增加了一个维度，将单个图像转换为一个大小为1的批次（batch）。这是因为深度学习模型通常接受批次作为输入，即使只有一个样本也需要将其封装成批次的形式。

img.shape

img.shape的返回值是一个表示张量维度的元组。在这段代码中，img是一个经过预处理的图像张量，通过torch.unsqueeze()将其扩展为一个大小为1的批次。

假设原始图像的尺寸为（H，W），其中H表示高度，W表示宽度。经过预处理和扩展批次后，img的形状将变为（1，C，H，W），其中1表示批次大小，C表示通道数（在RGB模式下为3），H和W表示图像的高度和宽度。

因此，img.shape的返回值将是一个四元组，类似于（1，3，H，W），其中H和W是具体的图像尺寸。这个形状表示了批次中包含一个图像，图像具有3个通道（RGB），高度为H，宽度为W。