数据分析-深度学习Pytorch Day2

小浩码出未来！

已于 2023-01-14 22:04:53 修改

阅读量285

点赞数

分类专栏：深度学习文章标签：深度学习

于 2023-01-12 23:59:41 首次发布

本文链接：https://blog.youkuaiyun.com/weixin_43902376/article/details/128668243

版权

本文介绍了PyTorch中nn.Conv2d()参数，模型微调的局部与全局策略，多GPU训练的DP与DDP区别，以及优化器和学习率调度策略。同时详细讲解了model.train()和model.eval()的使用场景及其与torch.no_grad()的区别。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

nn.Conv2d()的参数以及含义

torch.nn.Conv2d(
    in_channels, 
    out_channels, 
    kernel_size, 
    stride=1, 
    padding=0, 
    dilation=1, 
    groups=1, 
    bias=True, 
    padding_mode='zeros', 
    device=None, 
    dtype=None)

当biase为True时，输出特征图的每个元素满足一下公式：

一般来说，我们会设置bias=False。这是因为Conv2D后面往往会接一个BN层，在BN层中会计算bias，因此，在Conv2D中可以设置biase=False。

模型微调（fine_turn）

pytorch中通过 .required_grad来控制某一层是否进行梯度回传（参数更新）。如下所示：

model = torchvision.models.resnet18(pretrained=True)
for param in model.parameters():
    param.requires_grad = False

当param.requires_grad = True时，表示进行梯度回传（默认）。

当param.requires_grad = False时，表示该层不进行参数参数更新。

局部微调

当训练集数量少，或者数据域不相同时，可以使用局部微调。如固定住backbone的参数，只更新head的参数。

全局微调

当训练数据量大时，可以使用全局微调。这时我们可以控制一些层的学习率来获取更好的效果。即网络的不同层可以使用不同的学习率。

ignored_params = list(map(id, model.fc.parameters()))
base_params = filter(lambda p: id(p) not in ignored_params,
                     model.parameters())
 
optimizer = torch.optim.SGD([
            {'params': base_params},
            {'params': model.fc.parameters(), 'lr': 1e-3}
            ], lr=1e-2, momentum=0.9)

多GPU训练

最低0.47元/天解锁文章