pytorch冻结网络参数及网络层学习率设置

最新推荐文章于 2024-07-25 10:52:13 发布

张飞飞~

最新推荐文章于 2024-07-25 10:52:13 发布

阅读量904

点赞数

分类专栏： pytorch tensorflow 文章标签：深度学习

本文链接：https://blog.youkuaiyun.com/qq_36814762/article/details/119719543

版权

pytorch tensorflow 专栏收录该内容

6 篇文章

订阅专栏

本文介绍了两种深度学习网络优化策略。一是通过设置`requires_grad=False`来冻结部分网络层，避免其参数在训练中更新。二是采用分层学习率，对不同部分的网络分配不同的学习率，如在创建Adam优化器时，分别为基模块、生成器、判别器和特征学习层设置不同的学习率。这些技巧有助于提升模型训练的效果和效率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1、冻结网络层参数
参考：注意是requires_grad
https://zhuanlan.zhihu.com/p/357349586
https://zhuanlan.zhihu.com/p/65105409

 for name, param in model.named_parameters():
        if  ('discriminator_G' not in name) and ('discriminator_L' not in name):
            param.requires_grad = False

2.分层处理学习率
建立优化器的时候：

 	discriminator_L_param=list(map(id, model.backbone_2d.discriminator_L.parameters()))
    discriminator_G_param=list(map(id, model.backbone_2d.discriminator_G.parameters()))
    FL_param = list(map(id, model.backbone_2d.FL.parameters()))
    base_params = filter(lambda p: id(p) not in discriminator_L_param + discriminator_G_param+FL_param,model.parameters())

    if optim_cfg.OPTIMIZER == 'adam':
        optimizer = optim.Adam([
            {'params': base_params},
            {'params':model.backbone_2d.discriminator_G.parameters(),'lr':optim_cfg.LR*3},
            {'params':model.backbone_2d.discriminator_L.parameters(),'lr':optim_cfg.LR*3},
            {'params':model.backbone_2d.FL.parameters(),'lr':optim_cfg.LR*3}], 
            lr=optim_cfg.LR, weight_decay=optim_cfg.WEIGHT_DECAY)