FCN 模型简介及代码

原创已于 2025-05-08 10:14:38 修改 · 486 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#python #开发语言

于 2023-12-10 18:41:40 首次发布

本文介绍了如何使用PyTorch实现一个端到端的全卷积网络进行像素级预测，包括参数解析、图像预处理方法（如SegmentationPresetTrain）、学习率调整策略以及如何在预训练模型上继续训练。

部署运行你感兴趣的模型镜像

概念

首个端对端的针对像素级预测的全卷积网络。

代码

传入的参数

def parse_args():
    import argparse
    parser = argparse.ArgumentParser(description="pytorch fcn training")

    parser.add_argument("--data-path", default="/data/", help="VOCdevkit root")
    parser.add_argument("--num-classes", default=20, type=int)
    parser.add_argument("--aux", default=True, type=bool, help="auxilier loss")
    parser.add_argument("--device", default="cuda", help="training device")
    parser.add_argument("-b", "--batch-size", default=4, type=int)
    parser.add_argument("--epochs", default=30, type=int, metavar="N",
                        help="number of total epochs to train")

    parser.add_argument('--lr', default=0.0001, type=float, help='initial learning rate')
    parser.add_argument('--momentum', default=0.9, type=float, metavar='M',
                        help='momentum')
    parser.add_argument('--wd', '--weight-decay', default=1e-4, type=float,
                        metavar='W', help='weight decay (default: 1e-4)',
                        dest='weight_decay')
    parser.add_argument('--print-freq', default=10, type=int, help='print frequency')
    parser.add_argument('--resume', default='', help='resume from checkpoint')
    parser.add_argument('--start-epoch', default=0, type=int, metavar='N',
                        help='start epoch')
    # Mixed precision training parameters
    parser.add_argument("--amp", default=False, type=bool,
                        help="Use torch.cuda.amp for mixed precision training")

    args = parser.parse_args()

    return args

num_classes：不包含背景

resume：填入之前训练中程序终端产生的权重文件的路径，表示让模型在这个权重文件的基础上继续训练

SegmentationPresetTrain

训练过程中图像预处理方法

class SegmentationPresetTrain:
    def __init__(self, base_size, crop_size, hflip_prob=0.5, mean=(0.485, 0.456, 0.406), std=(0.229, 0.224, 0.225)):
        min_size = int(0.5 * base_size)
        max_size = int(2.0 * base_size)

        trans = [T.RandomResize(min_size, max_size)]
        if hflip_prob > 0:
            trans.append(T.RandomHorizontalFlip(hflip_prob))
        trans.extend([
            T.RandomCrop(crop_size),
            T.ToTensor(),
            T.Normalize(mean=mean, std=std),
        ])
        self.transforms = T.Compose(trans)

    def __call__(self, img, target):
        return self.transforms(img, target)

num_classes:

默认加上1

    # segmentation nun_classes + background
    num_classes = args.num_classes + 1

学习率

    # 创建学习率更新策略，这里是每个step更新一次(不是每个epoch)
    lr_scheduler = create_lr_scheduler(optimizer, len(train_loader), args.epochs, warmup=True)

warmup：热身训练，从一个非常小的学习率慢慢增加到我们所指定的那个初始化学习率。

palette.json文件

每个目标分别用什么颜色。（R,G,B）

交叉熵损失

逐像素的预测值与真实值之间做交叉熵损失，然后特征图上的所有交叉熵损失相加求平均。

您可能感兴趣的与本文相关的镜像

PyTorch 2.5

PyTorch

Cuda

PyTorch 是一个开源的 Python 机器学习库，基于 Torch 库，底层由 C++ 实现，应用于人工智能领域，如计算机视觉和自然语言处理