《深入浅出Pytorch》第六章学习笔记

最新推荐文章于 2024-01-31 11:16:01 发布

张拭心

最新推荐文章于 2024-01-31 11:16:01 发布

阅读量1.8k

点赞数

文章标签： pytorch 深度学习 python

本文链接：https://blog.youkuaiyun.com/m0_37262134/article/details/123567475

版权

本文介绍了PyTorch中自定义损失函数的两种方式，强调使用张量计算接口，并展示了如何动态调整学习率，包括使用官方scheduler和自定义方法。还探讨了模型微调，特别是如何训练特定层和设置`requires_grad`属性。最后，讨论了半精度训练的设置及其适用场景。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

第六章 PyTorch进阶训练技巧

一、自定义损失函数

1. 以函数方式定义

def my_loss(output, target):
    '''均方差损失函数'''
    loss = torch.mean((output - target)**2)
    return loss

2 以类方式定义

虽然以函数定义的方式很简单，但是以类方式定义更加常用，在以类方式定义损失函数时，我们如果看每一个损失函数的继承关系我们就可以发现Loss函数部分继承自_loss, 部分继承自_WeightedLoss, 而_WeightedLoss继承自_loss，_loss继承自 nn.Module。我们可以将其当作神经网络的一层来对待，同样地，我们的损失函数类就需要继承自nn.Module类。

示例：Pytorch实现DiceLoss损失函数

from torch import nn
import torch.nn.functional as F


class DiceLoss(nn.Module):
    def __init__(self, weight=None, size_average=True):
        super(DiceLoss, self).__init__()

    def forward(self, inputs, targets, smooth=1):
        inputs = F.sigmoid(inputs)
        inputs = inputs.view(-1)
        targets = targets.view(-1)
        intersection = (inputs * targets).sum()
        dice = (2.*intersection + smooth)/(inputs.sum() + targets.sum() + smooth)
        return 1 - dice


# 使用方法
criterion = DiceLoss()
loss = criterion(input, targets)

参考：医学图像分割之 Dice Loss

注：

在自定义损失函数时，涉及到数学运算时，我们最好全程使用PyTorch提供的张量计算接口，这样就不需要我们实现自动求导功能并且我们可以直接调用cuda。

二、动态调整学习率

学习率的选择是深度学习中一个困扰人们许久的问题，学习速率设置过小，会极大降低收敛速度，增加训练时间；学习率太大，可能导致参数在最优解两侧来回振荡。但是当我们选定了一个合适的学习率后，经过许多轮的训练后，可能会出现准确率震荡或loss不再下降等情况，说明当前学习率已不能满足模型调优的需求。此时我们就可以通过一个适当的学习率衰减策略来改善这种现象，提高我们的精度。这种设置方式在PyTorch中被称为scheduler。

1. 使用官方scheduler

在训练神经网络的过程中，学习率是最重要的超参数之一，作为当前较为流行的深度学习框架，PyTorch已经在torch.optim.lr_scheduler为我们封装好了一些动态调整学习率的方法供我们使用。

2. 如何使用官方api

# 选择一种优化器
optimizer = torch.optim.Adam(...) 
# 选择上面提到的一种或多种动态调整学习率的方法
scheduler1 = torch.optim.lr_scheduler.... 
scheduler2 = torch.optim.lr_scheduler....
...
schedulern = torch.optim.lr_scheduler....
# 进行训练
for epoch in range(100):
    train(...)
    validate(...)
    optimizer.step()
    # 需要在优化器参数更新之后再动态调整学习率
    scheduler1.step() 
    ...
    schedulern.step()

注：

我们在使用官方给出的torch.optim.lr_scheduler时，需要将scheduler.step()放在optimizer.step()后面进行使用。

3. 自定义scheduler

虽然PyTorch官方给我们提供了许多的API，但是在实验中也有可能碰到需要我们自己定义学习率调整策略的情况，而我们的方法是自定义函数adjust_learning_rate来改变param_group中lr的值。

def adjust_learning_rate(optimizer, epoch):
    lr = args.lr * (0.1 ** (epoch // 30))
    for param_group in optimizer.param_groups:
        param_group['lr'] = lr

三、模型微调

  import torchvision.models as models
  resnet18 = models.resnet18()
  # resnet18 = models.resnet18(pretrained=False)  等价于与上面的表达式
  alexnet = models.alexnet()
  vgg16 = models.vgg16()
  squeezenet = models.squeezenet1_0()
  densenet = models.densenet161()
  inception = models.inception_v3()
  googlenet = models.googlenet()
  shufflenet = models.shufflenet_v2_x1_0()
  mobilenet_v2 = models.mobilenet_v2()
  mobilenet_v3_large = models.mobilenet_v3_large()
  mobilenet_v3_small = models.mobilenet_v3_small()
  resnext50_32x4d = models.resnext50_32x4d()
  wide_resnet50_2 = models.wide_resnet50_2()
  mnasnet = models.mnasnet1_0()

通过True或者False来决定是否使用预训练好的权重，在默认状态下pretrained = False，意味着我们不使用预训练得到的权重，当pretrained = True，意味着我们将使用在一些数据集上预训练得到的权重。

  import torchvision.models as models
  resnet18 = models.resnet18()
  # resnet18 = models.resnet18(pretrained=False)  等价于与上面的表达式
  alexnet = models.alexnet()
  vgg16 = models.vgg16()
  squeezenet = models.squeezenet1_0()
  densenet = models.densenet161()
  inception = models.inception_v3()
  googlenet = models.googlenet()
  shufflenet = models.shufflenet_v2_x1_0()
  mobilenet_v2 = models.mobilenet_v2()
  mobilenet_v3_large = models.mobilenet_v3_large()
  mobilenet_v3_small = models.mobilenet_v3_small()
  resnext50_32x4d = models.resnext50_32x4d()
  wide_resnet50_2 = models.wide_resnet50_2()
  mnasnet = models.mnasnet1_0()

3. 训练特定层

在默认情况下，参数的属性.requires_grad = True，如果我们从头开始训练或微调不需要注意这里。但如果我们正在提取特征并且只想为新初始化的层计算梯度，其他参数不进行改变。那我们就需要通过设置requires_grad = False来冻结部分层。在PyTorch官方中提供了这样一个例程。

import torchvision.models as models
import torch.nn as nn


def set_parameter_requires_grad(model, feature_extracting):
    if feature_extracting:
        for param in model.parameters():
            param.requires_grad = False


# 冻结参数的梯度
feature_extract = True
model = models.resnet18(pretrained=True)
set_parameter_requires_grad(model, feature_extract)

# 修改模型
num_ftrs = model.fc.in_features
model.fc = nn.Linear(in_features=512, out_features=4, bias=True)

在之后的训练过程中，model仍会进行梯度回传，但是参数更新则只会发生在fc层。通过设定参数的requires_grad属性，我们完成了指定训练模型的特定层的目标，这对实现模型微调非常重要。

四、半精度训练

我们观察PyTorch默认的浮点数存储方式用的是torch.float32，小数点后位数更多固然能保证数据的精确性，但绝大多数场景其实并不需要这么精确，只保留一半的信息也不会影响结果，也就是使用torch.float16格式。由于数位减了一半，因此被称为“半精度”。半精度能够减少显存占用，使得显卡可以同时加载更多数据进行计算。

1. 半精度训练的设置

在PyTorch中使用autocast配置半精度训练，同时需要在下面三处加以设置：

import autocast
模型设置

训练过程

from torch.cuda.amp import autocast

@autocast()   
def forward(self, x):
    ...
    return x

 for x in train_loader:
    x = x.cuda()
    with autocast():
        output = model(x)
        ...

注意：

半精度训练主要适用于数据本身的size比较大（比如说3D图像、视频等）。当数据本身的size并不大时（比如手写数字MNIST数据集的图片尺寸只有28*28），使用半精度训练则可能不会带来显著的提升。

PS：

super.__init()__有时候又spuer(DiceLoss, self).__init__的区别：super.__init()__用于python3，spuer(DiceLoss, self).__init__用于python2，两者效果相同。