pytorch的函数中的group参数的作用

本文详细解析了PyTorch中卷积层(conv)的参数设置,特别是group参数对权重矩阵尺寸的影响,以及如何影响计算过程。通过具体实例展示了不同group设置下卷积核的尺寸变化,揭示了分组卷积的原理及其在实际应用中的优势。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.当设置group=1时:

conv = nn.Conv2d(in_channels=6, out_channels=6, kernel_size=1, groups=1)
conv.weight.data.size()

返回:

torch.Size([6, 6, 1, 1])

另一个例子:

conv = nn.Conv2d(in_channels=6, out_channels=3, kernel_size=1, groups=1)
conv.weight.data.size()

返回:

torch.Size([3, 6, 1, 1])

可见第一个值为out_channels的大小,第二个值为in_channels的大小,后面两个值为kernel_size

 

2.当设置为group=2时

conv = nn.Conv2d(in_channels=6, out_channels=6, kernel_size=1, groups=2)
conv.weight.data.size()

返回:

torch.Size([6, 3, 1, 1])

 

3.当设置group=3时

conv = nn.Conv2d(in_channels=6, out_channels=6, kernel_size=1, groups=3)
conv.weight.data.size()

返回:

torch.Size([6, 2, 1, 1])

 

4.当设置group=4时

conv = nn.Conv2d(in_channels=6, out_channels=6, kernel_size=1, groups=4)
conv.weight.data.size()

报错:

ValueError: in_channels must be divisible by groups

groups的值必须能整除in_channels

注意:

同样也要求groups的值必须能整除out_channels,举例:

conv = nn.Conv2d(in_channels=6, out_channels=3, kernel_size=1, groups=2)
conv.weight.data.size()

否则会报错:

ValueError: out_channels must be divisible by groups

 

 

5.当设置group=in_channels时

conv = nn.Conv2d(in_channels=6, out_channels=6, kernel_size=1, groups=6)
conv.weight.data.size()

返回:

torch.Size([6, 1, 1, 1])

 

所以当group=1时,该卷积层需要6*6*1*1=36个参数,即需要6个6*1*1的卷积核

计算时就是6*H_in*W_in的输入整个乘以一个6*1*1的卷积核,得到输出的一个channel的值,即1*H_out*W_out。这样经过6次与6个卷积核计算就能够得到6*H_out*W_out的结果了

 

如果将group=3时,卷积核大小为torch.Size([6, 2, 1, 1]),即6个2*1*1的卷积核,只需要需要6*2*1*1=12个参数

那么每组计算就只被in_channels/groups=2个channels的卷积核计算,当然这也会将输入分为三份大小为2*H_in*W_in的小输入,分别与2*1*1大小的卷积核进行三次运算,然后将得到的3个2*H_out*W_out的小输出concat起来得到最后的6*H_out*W_out输出

在实际实验中,同样的网络结构下,这种分组的卷积效果是好于未分组的卷积的效果的。

转载于:https://www.cnblogs.com/wanghui-garcia/p/10775851.html

### PyTorch 中优化器的相关信息 #### 优化器的作用与基本概念 在机器学习模型训练过程中,优化器用于更新网络权重以最小化损失函数。通过调整这些参数,可以提高模型性能并加速收敛过程。 #### 创建自定义权重张量 为了展示如何创建带有梯度属性的张量,在下面的例子中定义了一个`geneWeight()` 函数用来生成随机初始化且具有可求导特性的二维矩阵[^1]: ```python import torch def geneWeight(): weight = torch.randn((2,2), requires_grad=True) weight.grad = torch.ones((2,2)) return weight ``` #### 初始化多个参数组 当需要管理不同子集下的变量时(比如冻结某些层),可以通过向 `add_param_group()` 方法传递字典形式的新参数列表实现多组配置的支持。此操作允许为每组设置独立的学习率和其他超参选项,如下所示: ```python torch.manual_seed(0) a = geneWeight() b = geneWeight() optimizer = torch.optim.SGD([a], lr=0.1) optimizer.add_param_group({'params': [b], 'weight_decay': 0.005}) ``` #### 执行单步优化迭代 调用 `.step()` 可触发一次完整的反向传播计算,并依据选定算法自动完成权值修正;而`.zero_grad()` 则负责清除当前累积的所有梯度信息以便下一轮循环正常运作: ```python optimizer.step() # 更新参数 optimizer.zero_grad() # 清除已存梯度 ``` #### 构建参与训练的参数集合 对于更复杂的场景而言,可能只希望部分特定组件参与到实际更新流程当中。此时可通过遍历整个模块结构筛选符合条件者加入到待处理队列之中,如代码片段所描述那样[^2]: ```python param_to_optim = [] for param in model.parameters(): if not param.requires_grad: continue param_to_optim.append(param) optimizer = torch.optim.SGD( param_to_optim, lr=0.001, momentum=0.9, weight_decay=1e-4 ) ``` #### 常见优化器种类简介 PyTorch 提供了多种内置优化策略供开发者选用,其中包括但不限于: - **SGD (Stochastic Gradient Descent)**: 随机梯度下降法是最基础也是最常用的优化方式之一; - **Adam**: 自适应矩估计结合了一阶动量和二阶动量的优点,通常能带来更快更好的效果; - **RMSprop**: 根均方误差传播法则特别适合于非稳态环境下的在线/增量式学习任务。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值