解析aladdinpersson项目中的UNet图像分割数据集实现-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00863/article/details/148441339

解析aladdinpersson项目中的UNet图像分割数据集实现

Machine-Learning-Collection A resource for learning about Machine learning & Deep Learning 项目地址: https://gitcode.com/gh_mirrors/ma/Machine-Learning-Collection

在图像分割任务中，数据集的构建是模型训练的重要基础环节。本文将深入分析一个基于PyTorch实现的UNet图像分割数据集类CarvanaDataset，它来自一个知名的机器学习项目集合。

数据集类的基本结构

CarvanaDataset继承自PyTorch的Dataset基类，这是构建自定义数据集的常规做法。它主要实现了三个关键方法：

__init__：初始化数据集，设置图像和掩码目录
__len__：返回数据集大小
__getitem__：获取单个样本及其标签

这种结构是PyTorch数据加载的标准范式，确保了与DataLoader的良好兼容性。

核心实现解析

初始化方法

def __init__(self, image_dir, mask_dir, transform=None):
    self.image_dir = image_dir
    self.mask_dir = mask_dir
    self.transform = transform
    self.images = os.listdir(image_dir)

初始化方法接收三个参数：

image_dir：原始图像存储目录
mask_dir：对应的分割掩码存储目录
transform：可选的数据增强变换

这里使用os.listdir获取图像目录下的所有文件名，作为数据集的基础索引。

数据获取方法

def __getitem__(self, index):
    img_path = os.path.join(self.image_dir, self.images[index])
    mask_path = os.path.join(self.mask_dir, self.images[index].replace(".jpg", "_mask.gif"))
    image = np.array(Image.open(img_path).convert("RGB"))
    mask = np.array(Image.open(mask_path).convert("L"), dtype=np.float32)
    mask[mask == 255.0] = 1.0

__getitem__方法是核心，它完成了以下工作：

根据索引构建图像和掩码的完整路径
使用PIL库加载图像和掩码
将图像转换为RGB格式的NumPy数组
将掩码转换为灰度(L)格式的浮点型数组
将掩码中的255(通常表示前景)归一化为1.0

这种处理方式在二值分割任务中很常见，将掩码转换为0-1值便于模型处理。

数据增强处理

if self.transform is not None:
    augmentations = self.transform(image=image, mask=mask)
    image = augmentations["image"]
    mask = augmentations["mask"]

如果提供了transform参数，代码会同时对图像和掩码应用相同的数据增强。这种同步变换对于分割任务至关重要，确保图像和掩码的空间对应关系不被破坏。