关于requires_grad和优化器optim中parameters的记录

最新推荐文章于 2024-01-04 16:10:51 发布

原创

最新推荐文章于 2024-01-04 16:10:51 发布 · 1.4k 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #深度学习

在模型中如果设置了requires_grad=True，则表示该层要进行梯度计算，标记为False则不计算梯度，在迁移学习中一般会设置成False，这样会大量减少算力。

而optim中的parameters是定义要对那些层进行参数优化

一般在迁移学习的代码过程中我们会先把加载的模型所有层定义成requires_grad=False，再

将模型编辑成我们需要的样子，例如将全连接层的输出定义成我们要的输出。

然后根据没有冻结的层创建优化器。

# 加载模型
model_ft = torchvision.models.resnet18(weights=torchvision.models.ResNet18_Weights.DEFAULT)

# 冻结模型
for param in model_ft.parameters():
    param.requires_grad = False

# 编辑模型
num_ftrs = model_ft.fc.in_features
model_ft.fc = nn.Linear(num_ftrs, 10)

# 取出未冻结的层
param_update= []
for param in model_ft.parameters():
    if param.requires_grad:
        param_update.append(param)

# 定义优化器
optimizer_ft = optim.Adam(param_update, lr=0.001)

这样做的好处是可以节省计算梯度和优化的算力。

但是这样做有一个问题：

我在代码中会保存优化器以便于之后的继续测试

state = {
        'state_dict': mymodel.state_dict(),
        'optimizer': optimizer.state_dict()
    }
torch.save(state, "save_test

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

immc1979

关注关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
2
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

20-输入数据和标签requires_grad属性

zqb_123的博客

03-15

126

在深度学习中，requires_grad是一个用于控制张量是否需要计算梯度的属性。当输入图像数据的requires_grad = False时，意味着 PyTorch 不会为该张量计算梯度，这通常用于表示，比如普通的。而经过数据requires_grad = True，这是因为卷积层中的参数（权重和偏置）通常是需要学习和更新的，在反向传播过程中需要计算关于这些参数的梯度，以便通过优化算法来调整它们的值以最小化损失函数。

.requires_grad固定部分参数进行网络训练

qq_43489708的博客

05-06

928

.requires_grad固定部分参数进行网络训练文章目录.requires_grad固定部分参数进行网络训练1. 只训练部分层2. 固定部分层参数3.检查部分参数是否固定4.查看可训练参数5.查看网络总参数6. 不同层设置不同学习率7. [PyTorch](https://so.youkuaiyun.com/so/search?q=PyTorch&spm=1001.2101.3001.7020)更新部分网络，其他不更新 1. 只训练部分层 class RESNET_attention(nn.Module

2 条评论您还未登录，请先登录后发表或查看评论

pytorch冻结网络参数，requires_grad与optimizer顺序的关系

村民的菜篮子

06-16

5623

问题说明： pytorch迁移学习时，需要对某些层冻结参数，不参与方向传播，具体实现是将要冻结的参数的 requires_grad属性置为false，如下：

pytorch 查看参数是否被训练 require_grad()

Golden-sun的博客

07-11

7822

遍历named_parameters()中的所有的参数，只打印那些param.requires_grad=True的变量。 for name, param in model.named_parmeters(): if param.requires_grad: print(name)

PyTorch grad 与 Optimizer(params) 区别

weixin_37179744的博客

10-22

1014

目录PyTorch grad 与 Optimizer(params) 区别 PyTorch grad 与 Optimizer(params) 区别 Tensor 可以设置属性 requires_grad=True/False 说明其是否进行梯度更新，而 Optimizer(params) 可以用来指定要进行优化的参数有哪些。那么二者究竟有啥区别，但需要冻结某些参数时，正确的做法又应该是什么，二选一还是都应该设置？我们通过下面的一系列实验进行说明：（除实验一外，其他所有实验中的省略部分参考实验一部分）.

深度学习模型、数据集分割、训练、优化算法、模型解释

weixin_41733381的博客

05-28

1093

深度学习模型训练优化算法的主要特点和步骤

Pytorch训练过程中改变模型参数 requires_grad 属性

wangxiaosu的专栏

02-20

5746

如果模型只在一块GPU上跑，该过程非常简单，只需要训练中途迭代model的parameters，然后改变各个param的requires_grad 属性即可： for name, param in model.named_parameters(): logger.info('parameter of %s'%name) logger.info('before requires...

pytorch载入预训练模型后，只想训练个别层怎么办？使用filter(lambda p: p.requires_grad, model.parameters())

Akita·Wang's Semantic Segmentation

05-23

3148

有了已经训练好的模型参数，对这个模型的某些层做了改变，如何利用这些训练好的模型参数继续训练 def init_weights(self, pretrained='',): logger.info('=> init weights from normal distribution') for m in self.modules(): if isinstance(m, nn.Conv2d): nn.init

optim.AdamW(filter(lambda p: p.requires_grad, parameters) 出现'dict' object has no attribute 'requires_grad'

热门推荐

weixin_41332732的博客

03-05

1万+

解决训练时报错：ValueError: loaded state dict contains a parameter group that doesn’t match the size of optimizer’s group 大致意思：加载状态 dict 包含一个与优化器组的大小不匹配的参数组暂时解决：直接注释掉 optimizer.load_state_dict(ckpt[‘optimizer’]) 因为 if cfg.BACKBONE.TRAIN_EPOCH == epoch: logger.inf

Pytorch-线性回归的从零开始实现

斯人若彩虹，遇上方知有！

10-21

2030

3.2 线性回归的从零开始实现在了解了线性回归的背景知识之后，现在我们可以动手实现它了。尽管强大的深度学习框架可以减少大量重复性工作，但若过于依赖它提供的便利，会导致我们很难深入理解深度学习是如何工作的。因此，本节将介绍如何只利用Tensor和autograd来实现一个线性回归的训练。首先，导入本节中实验所需的包或模块，其中的matplotlib包可用于作图，且设置成嵌入显示。 %matplo...

“loaded state dict contains a parameter group that doesn‘t match the“解决方法

weixin_51371510的博客

01-04

726

"loaded state dict contains a parameter group that doesn't match the"解决方法

【突然炼丹】模型加载预训练权重

weixin_44398263的博客

04-11

614

最近被找实习搞累了突然开始炼丹？？？场景：在centerpoint里面加了个小模块。之前有原网络训练好的权重，与当前网络并不完全匹配（当前网络有新加的层，也有去掉的原网络的部分层）。现在不希望从头开始训，希望使用原网络的部分权重。。。我用reusme_from 加载，但报错说。 “ValueError: loaded state dict contains a parameter group that doesn’t match the size of optimizer’s” 可以看到网络层不匹

RNN自学笔记

weixin_50774105的博客

03-01

1484

视频来源：链接一、序列模型 1.1、序列数据举例： a、音乐，语言，文本和视频是连续的 b、大地震发生后，很可能会有几次较小的余震 c、人的互动是连续的 d、预测明天的股票要比填补昨天以实的股价更困难（炒股是炒预期） # ：图片是空间的，语言是时序的。 1.2、统计工具（x1,x2,...xt)~p(x) 情况1：数据是图片，那么x1,x2,...xt就是一个个像素点，它们在空间上满足某种关系的概率是p(x)，比如分类算法的输出就是一个概率。情况2：数据是语言，那么x1,x2,.

深度学习网络中设置部分层参数可调

weixin_42160956的博客

05-29

861

1.基于框架pytorch。先查看网络每层的名字p[0]，将需要梯度更新的层的名字记下，替换以下代码中的’conv5_ft.conv.weight/bias’，将不需要梯度更新层的require_grad设为False。 for p in net.named_parameters(): if p[0] != ‘conv5_ft.conv.weight’ and p[0]!=‘conv5_ft.co......

param.requires_grad = False

重剑无锋博客

09-11

3851

param.requires_grad = False:屏蔽预训练模型的权重，只训练全连接层的权重

pytorch中的model.named_parameters()与model.parameters()

分享技术笔记，记录学习研发历程

05-21

1万+

参考链接：https://www.cnblogs.com/yqpy/p/12585331.html model.named_parameters() 迭代打印model.named_parameters()将会打印每一次迭代元素的名字和param。 for name, param in net.named_parameters(): print(name,param.requires_grad) param.requires_grad = False 输出结果为 conv_1_

微调 — 冻结网络参数

baidu_39638008的博客

12-06

3347

1.冻结前N层参数 for i, p in enumerate(model.parameters()): if i < N: p.requires_grad = False 2.冻结任意层参数首先，需要知道某一层的名字； # 打印模型各层的名字 for name, param in model.named_parameters(): if param.requires_grad: print(name) 冻...