使用skorch实现迁移学习的完整指南-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_01186/article/details/148488087

使用skorch实现迁移学习的完整指南

skorch 项目地址: https://gitcode.com/gh_mirrors/sko/skorch

什么是迁移学习

迁移学习(Transfer Learning)是机器学习中一种重要的技术，它允许我们将一个预训练模型的知识迁移到新的任务上。这种方法特别适用于深度学习领域，因为从头开始训练深度神经网络通常需要大量数据和计算资源。

在计算机视觉领域，迁移学习尤为常见。我们可以利用在大型数据集(如ImageNet)上预训练的模型，通过微调(fine-tuning)或特征提取(feature extraction)的方式，将其应用于新的、通常规模较小的数据集上。

skorch项目简介

skorch是一个将PyTorch与scikit-learn无缝集成的Python库，它提供了scikit-learn风格的API来训练PyTorch神经网络。这使得我们可以利用scikit-learn强大的工具生态系统(如网格搜索、管道等)来处理PyTorch模型。

准备工作

安装必要的库

在开始之前，我们需要确保安装了以下Python库：

torch
torchvision
skorch
numpy

数据集介绍

本教程使用的是蚂蚁和蜜蜂的二分类数据集，包含：

训练集：每个类别120张图片
验证集：每个类别75张图片

数据集已经预先划分为训练集和验证集，这有助于我们评估模型的泛化能力。

数据预处理

数据增强

对于训练数据，我们应用了以下增强技术：

随机裁剪到224x224大小
随机水平翻转

这些技术有助于增加数据的多样性，防止模型过拟合。

数据标准化

所有图像都进行了标准化处理，使用了ImageNet数据集的均值和标准差：

均值：[0.485, 0.456, 0.406]
标准差：[0.229, 0.224, 0.225]

使用这些特定值是因为我们的预训练模型是在ImageNet上训练的，保持一致的预处理有助于模型更好地工作。

构建预训练模型

我们使用ResNet18作为基础模型，这是一个在ImageNet上预训练的中等规模卷积神经网络。

class PretrainedModel(nn.Module):
    def __init__(self, output_features):
        super().__init__()
        model = models.resnet18(pretrained=True)
        num_ftrs = model.fc.in_features
        model.fc = nn.Linear(num_ftrs, output_features)
        self.model = model
        
    def forward(self, x):
        return self.model(x)

关键点：

我们保留了除最后一层外的所有预训练权重
替换了最后的全连接层以适应我们的二分类任务
输出特征数设为2(蚂蚁和蜜蜂两个类别)

使用skorch配置训练

学习率调度器

我们使用StepLR调度器，每7个epoch将学习率乘以0.1：

from skorch.callbacks import LRScheduler

lrscheduler = LRScheduler(
    policy='StepLR', step_size=7, gamma=0.1)

这种学习率衰减策略有助于模型在训练后期更精细地调整权重。

模型检查点

设置检查点回调以保存最佳模型：

from skorch.callbacks import Checkpoint

checkpoint = Checkpoint(
    f_params='best_model.pt', monitor='valid_acc_best')

这会监控验证集准确率，并在达到新高时保存模型。

冻结层

我们冻结了除最后一层外的所有权重：

from skorch.callbacks import Freezer

freezer = Freezer(lambda x: not x.startswith('model.fc'))

这种策略称为"特征提取"，即只训练新添加的分类层，而保持预训练特征提取器的权重不变。

完整的神经网络分类器

将所有组件组合起来：

net = NeuralNetClassifier(
    PretrainedModel, 
    criterion=nn.CrossEntropyLoss,
    lr=0.001,
    batch_size=4,
    max_epochs=25,
    module__output_features=2,
    optimizer=optim.SGD,
    optimizer__momentum=0.9,
    iterator_train__shuffle=True,
    iterator_train__num_workers=2,
    iterator_valid__num_workers=2,
    train_split=predefined_split(val_ds),
    callbacks=[lrscheduler, checkpoint, freezer],
    device='cuda'
)

配置详解：