基于UNET的图像语义分割训练实现解析

俞凯润

于 2025-06-05 09:08:17 发布

阅读量418

点赞数 5

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/gitblog_00861/article/details/148441348

基于UNET的图像语义分割训练实现解析

Machine-Learning-Collection A resource for learning about Machine learning & Deep Learning 项目地址: https://gitcode.com/gh_mirrors/ma/Machine-Learning-Collection

项目背景与概述

本文解析的是一个使用PyTorch实现UNET架构进行图像语义分割的训练脚本。UNET是一种经典的编码器-解码器结构神经网络，最初设计用于生物医学图像分割，由于其出色的表现，现已被广泛应用于各种图像分割任务中。

核心代码结构解析

1. 超参数配置

脚本开头定义了一系列重要的超参数和配置项：

LEARNING_RATE = 1e-4
DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
BATCH_SIZE = 16
NUM_EPOCHS = 3
NUM_WORKERS = 2
IMAGE_HEIGHT = 160
IMAGE_WIDTH = 240
PIN_MEMORY = True
LOAD_MODEL = False

这些参数控制着模型训练的关键方面：

学习率(LEARNING_RATE)：影响模型参数更新的步长
设备选择(DEVICE)：自动检测并使用CUDA GPU加速
批次大小(BATCH_SIZE)：每次训练迭代处理的样本数量
训练轮次(NUM_EPOCHS)：完整遍历数据集的次数
图像尺寸(IMAGE_HEIGHT/IMAGE_WIDTH)：统一调整输入图像大小

2. 数据增强与预处理

脚本使用了Albumentations库进行数据增强，这是计算机视觉任务中常用的技巧：

train_transform = A.Compose([
    A.Resize(height=IMAGE_HEIGHT, width=IMAGE_WIDTH),
    A.Rotate(limit=35, p=1.0),
    A.HorizontalFlip(p=0.5),
    A.VerticalFlip(p=0.1),
    A.Normalize(...),
    ToTensorV2(),
])

训练集使用了多种增强策略：

随机旋转(35度范围内)
水平翻转(50%概率)
垂直翻转(10%概率)
标准化处理

验证集则只进行必要的调整大小和标准化，保持数据原貌以进行准确评估。

3. 模型训练函数

train_fn函数封装了训练的核心逻辑：

def train_fn(loader, model, optimizer, loss_fn, scaler):
    loop = tqdm(loader)
    for batch_idx, (data, targets) in enumerate(loop):
        # 数据转移到设备
        data = data.to(device=DEVICE)
        targets = targets.float().unsqueeze(1).to(device=DEVICE)
        
        # 前向传播(使用自动混合精度)
        with torch.cuda.amp.autocast():
            predictions = model(data)
            loss = loss_fn(predictions, targets)
        
        # 反向传播
        optimizer.zero_grad()
        scaler.scale(loss).backward()
        scaler.step(optimizer)
        scaler.update()
        
        # 更新进度条
        loop.set_postfix(loss=loss.item())

关键点说明：

使用tqdm创建进度条，直观显示训练过程
采用自动混合精度训练(AMP)，减少显存占用并加速训练
使用梯度缩放(scaler)防止混合精度训练中的梯度下溢
实时显示当前批次的损失值

4. 主训练流程

main()函数组织了完整的训练流程：

初始化组件：
- 创建UNET模型实例
- 定义二元交叉熵损失函数(带logits)
- 使用Adam优化器
数据加载：
- 通过get_loaders函数获取训练和验证数据加载器
- 分别应用不同的数据增强策略
训练循环：
- 每个epoch执行训练
- 定期保存模型检查点
- 验证集上评估准确率
- 保存预测结果图像用于可视化

技术亮点解析

1. 自动混合精度训练(AMP)

脚本中使用了PyTorch的自动混合精度训练技术：

scaler = torch.cuda.amp.GradScaler()
# ...
with torch.cuda.amp.autocast():
    predictions = model(data)
    loss = loss_fn(predictions, targets)

这种技术可以：

减少显存占用，允许使用更大的批次
加速训练过程
保持模型精度基本不受影响

2. 模块化设计

脚本通过utils.py将常用功能模块化：

模型保存/加载(save_checkpoint, load_checkpoint)
数据加载(get_loaders)
准确率评估(check_accuracy)
结果可视化(save_predictions_as_imgs)

这种设计提高了代码的可读性和复用性。

3. 完整训练流程监控

脚本实现了完整的训练监控体系：

实时损失显示(tqdm进度条)
定期验证集评估
可视化预测结果
模型检查点保存

实际应用建议

数据准备：
- 确保训练图像和掩码目录结构正确
- 掩码图像应为单通道二值图像
参数调整：
- 根据显存情况调整BATCH_SIZE
- 复杂任务可增加NUM_EPOCHS
- 图像尺寸应根据任务需求调整
扩展改进：
- 可尝试不同的数据增强策略
- 可替换其他损失函数如Dice Loss
- 可添加学习率调度器

总结

这个UNET图像分割训练脚本展示了如何使用PyTorch实现一个完整的语义分割训练流程，包含了数据加载、增强、模型训练、评估和结果保存等关键环节。通过自动混合精度训练等技术优化了训练效率，模块化的设计使得代码易于理解和扩展，是学习图像分割任务的优秀参考实现。

Machine-Learning-Collection A resource for learning about Machine learning & Deep Learning 项目地址: https://gitcode.com/gh_mirrors/ma/Machine-Learning-Collection

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考