目录
微调 是对计算机视觉,特别是深度学习来说最重要的一个技术!!!
微调 是 迁移学习 之中的一个算法。迁移学习可以认为是一大类
微调一般采用小学习率,但是其实对学习率并不敏感
假如我们想识别图片中不同类型的椅子,然后向用户推荐购买链接。
一种可能的方法是首先识别100把普通椅子,为每把椅子拍摄1000张不同角度的图像,然后在收集的图像数据集上训练一个分类模型。 尽管这个椅子数据集可能大于Fashion-MNIST数据集,但实例数量仍然不到ImageNet中的十分之一。
适合ImageNet的复杂模型可能会在这个椅子数据集上过拟合。 此外,由于训练样本数量有限,训练模型的准确性可能无法满足实际要求。
为了解决上述问题,一个显而易见的解决方案是收集更多的数据。 但是,收集和标记数据可能需要大量的时间和金钱。 例如,为了收集ImageNet数据集,研究人员花费了数百万美元的研究资金。 尽管目前的数据收集成本已大幅降低,但这一成本仍不能忽视。
另一种解决方案是应用迁移学习(transfer learning)将从源数据集学到的知识迁移到目标数据集。 例如,尽管ImageNet数据集中的大多数图像与椅子无关,但在此数据集上训练的模型可能会提取更通用的图像特征,这有助于识别边缘、纹理、形状和对象组合。 这些类似的特征也可能有效地识别椅子。
微调
一个神经网络一般可以分成两块
- 特征抽取将原始像素变成容易线性分割的特征
- 线性分类器(Softmax回归)来做分类
微调包括以下四个步骤。
-
在源数据集(例如ImageNet数据集)上预训练神经网络模型,即 源模型。
-
创建一个新的神经网络模型,即目标模型。这将复制源模型上的所有模型设计及其参数(输出层除外)。我们假定这些模型参数包含从源数据集中学到的知识,这些知识也将适用于目标数据集(反正无论如何都比随机好)。我们还假设源模型的输出层与源数据集的标签密切相关;因此不在目标模型中使用该层。
-
向目标模型添加输出层,其输出数是目标数据集中的类别数。然后随机初始化该层的模型参数。
-
在目标数据集(如椅子数据集)上训练目标模型。输出层将从头开始进行训练,而所有其他层的参数将根据源模型的参数进行微调。
核心想法:因为反向传播特性,所以最后一层(输出层)永远都是训练的比较快的,下面的层就根据我们目标数据集的特有特征微调就可以了
相当于是目标数据集上的正常训练任务,但是我们使用了更强的正则化(如果不使用更强的正则化,可能会出现 overfitting)
- 使用更小的学习率(因为已经比较好了,离最优解已经比较近了,不再需要很长的学习率)
- 使用更少的数据迭代(本来从头开始要 train 50-100个epoch,现在可能5个10个就差不多了)
源数据集远复杂于目标数据集(类别数、图片数量、样本个数通常要10倍 or 100倍你的目标数据集),微调效果更好。不然就冲头开始训练就好了,也不见得别的会比你的好。
重用分类器权重
-
源数据集可能也有目标数据中的部分标号
-
可以使用预训练好模型分类器中对应标号对应的向量来做初始化 (即有标号的权重拎出来作为初始化,没有的就随机)
固定一些层
- 神经网络通常学习有层次的表征表示
- 底层的特征更加通用
- 高层次的特征则跟数据集相关
- 可以固定底部一些层的参数,不参与更新
- 更强的正则性,导致模型复杂度变低
- 当你的目标数据集很小的情况下,全部训练可能很容易overfitting,也可以通过这种方式来缓解
总结
-
迁移学习将从源数据集中学到的知识迁移到目标数据集,微调是迁移学习的常见技巧。
-
微调通过使用在大数据上得到的预训练好的模型来初始化模型权重来完成提升精度
-
预训练模型质量很重要
-
除输出层外,目标模型从源模型中复制所有模型设计及其参数,并根据目标数据集对这些参数进行微调。但是,目标模型的输出层需要从头开始训练。
-
通常,微调参数使用较小的学习率,而从头开始训练输出层可以使用更大的学习率。
-
微调通常速度更快、精度更高
代码实现
import os
import torch
import torchvision
from torch import nn
from d2l import torch as d2l
热狗数据集来源于网络。该数据集包含1400张热狗的“正类”图像,以及包含尽可能多的其他食物的“负类”图像。 含着两个类别的1000张图片用于训练,其余的则用于测试。
解压下载的数据集,我们获得了两个文件夹 hotdog/train
和 hotdog/test
。 这两个文件夹都有hotdog
(有热狗)和not-hotdog
(无热狗)两个子文件夹, 子文件夹内都包含相应类的图像。
我们创建两个实例来分别读取训练和测试数据集中的所有图像文件。
d2l.DATA_HUB['hotdog'] = (d2l.DATA_URL + 'hotdog.zip',
'fba480ffa8aa7e0febbb511d181409f899b9baa5')
data_dir = d2l.download_extract('hotdog')
train_imgs = torchvision.datasets.ImageFolder(os.path.join(data_dir, 'train'))
test_imgs = torchvision.datasets.ImageFolder(os.path.join(data_dir, 'test'))
图像的大小和横纵比各有不同
hotdogs = [train_imgs[i][0] for i in range(8)]
not_hotdogs = [train_imgs[-i - 1][0] for i in range(8)]
d2l.show_images(hotdogs + not_hotdogs, 2, 8, scale=1.4);
数据增广
我们首先从图像中裁切随机大小和随机长宽比的区域,然后将该区域缩放为224×224输入图像。 在测试过程中,我们将图像的高度和宽度都缩放到256像素,然后裁剪中央224×224区域作为输入。 此外,对于RGB(红、绿和蓝)颜色通道,我们分别标准化 每个通道。具体而言,该通道的每个值减去该通道的平均值,然后将结果除以该通道的标准差。
# 使用RGB通道的均值和标准差,以标准化每个通道
# 因为在imageNet上面做了这个事情,所以需要搬过来
normalize = torchvision.transforms.Normalize(
[0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
train_augs = torchvision.transforms.Compose([
# 也是imageNet的尺寸
torchvision.transforms.RandomResizedCrop(224),
torchvision.transforms.RandomHorizontalFlip(),
torchvision.transforms.ToTensor(), normalize])
# imageNet同款操作
test_augs = torchvision.transforms.Compose([
torchvision.transforms.Resize([256, 256]),
torchvision.transforms.CenterCrop(224),
torchvision.transforms.ToTensor(), normalize])
定义和初始化模型(关键)
我们使用在ImageNet数据集上预训练的ResNet-18作为源模型。 在这里,我们指定pretrained=True
以自动下载预训练的模型参数。 如果首次使用此模型,则需要连接互联网才能下载。
预训练的源模型实例包含许多特征层和一个输出层fc
。 此划分的主要目的是促进对除输出层以外所有层的模型参数进行微调。 下面给出了源模型的成员变量fc。
pretrained_net = torchvision.models.resnet18(pretrained=True)
pretrained_net.fc
# 输出
Linear(in_features=512, out_features=1000, bias=True)
在 ResNet 的全局平均汇聚层后,全连接层转换为 ImageNet 数据集的1000个类输出。 之后,我们构建一个新的神经网络作为目标模型。 它的定义方式与预训练源模型的定义方式相同,只是最终层中的输出数量被设置为目标数据集中的类数(是2,而不是1000个;输入层不变,仍然是512)。
在下面的代码中,目标模型 finetune_net
中成员变量 features
的参数被初始化为源模型相应层的模型参数。 由于模型参数是在 ImageNet 数据集上预训练的,并且足够好,因此通常只需要较小的学习率即可微调这些参数。
finetune_net = torchvision.models.resnet18(pretrained=True)
finetune_net.fc = nn.Linear(finetune_net.fc.in_features, 2)
# 只对最后一层的weight做随机初始化
nn.init.xavier_uniform_(finetune_net.fc.weight);
微调模型
成员变量 output
的参数是随机初始化的,通常需要更高的学习率才能从头开始训练。 假设 Trainer
实例中的学习率为 η,我们将成员变量 output
中参数的学习率设置为 10η。
除此之外,和之前都没啥区别。
# 如果param_group=True,输出层中的模型参数将使用十倍的学习率
def train_fine_tuning(net, learning_rate, batch_size=128, num_epochs=5,
param_group=True):
train_iter = torch.utils.data.DataLoader(torchvision.datasets.ImageFolder(
os.path.join(data_dir, 'train'), transform=train_augs),
batch_size=batch_size, shuffle=True)
test_iter = torch.utils.data.DataLoader(torchvision.datasets.ImageFolder(
os.path.join(data_dir, 'test'), transform=test_augs),
batch_size=batch_size)
devices = d2l.try_all_gpus()
loss = nn.CrossEntropyLoss(reduction="none")
if param_group:
params_1x = [param for name, param in net.named_parameters()
if name not in ["fc.weight", "fc.bias"]]
trainer = torch.optim.SGD([{'params': params_1x},
{'params': net.fc.parameters(),
'lr': learning_rate * 10}],
lr=learning_rate, weight_decay=0.001)
else:
trainer = torch.optim.SGD(net.parameters(), lr=learning_rate,
weight_decay=0.001)
d2l.train_ch13(net, train_iter, test_iter, loss, trainer, num_epochs,
devices)
# 使用较小学习率
train_fine_tuning(finetune_net, 5e-5)
从训练图像可以看出,其实刚开始就很好了,甚至不需要要训练 5 个epoch,2 个就已经很好了