Concat层和Eltwise层对比解析

Concat层解析

Concat层的作用就是将两个及以上的特征图按照在channel或num维度上进行拼接,并没有eltwise层的运算操作,举个例子,如果说是在channel维度上进行拼接conv_9和deconv_9的话,首先除了channel维度可以不一样,其余维度必须一致(也就是num、H、W一致),这时候所做的操作仅仅是conv_9 的channel k1加上deconv_9的channel k2,Concat 层输出的blob可表示为:N*(k1+k2)*H*W。通常情况下,考虑到Concat是希望将同大小的特征图拼接起来,那为什么会产生同大小的特征图呢?显然离不开上采样和下采样的操作,接下来,以Caffe为例,介绍一下这两种拼接的方式,如下:

  • 选择axis=0,表示在num维度上进行拼接,可表示为:(k1+k2)*C*H*W;
  • 选择axis=1,表示在channel维度上进行拼接,可表示为:N*(k1+k2)*H*W。

注意,卷积运算是三维的(不要想成二维的,当然这应该在学卷积的时候说过的),卷积核的数量就是feature map的channel,feature map的num通常是minibatch的数目。可问题是,这两种Concat的方式应该如何选择呢?(ps:如果自己不会用,很自然就是看看别人怎么用)

那么接下来我们就看看到底怎么用。

目前我见过的大都是在channel维度上进行拼接,其实也容易想到,因为我们说feature map 的num是minibatch的图片数目,比方我们的batch是32,但是我们有4张显卡同时训练,显然minibatch等于8,这个8表示的是每张显卡一次性处理的图片数目,这么说来,如果在num维度上拼接的意思就是将同一张显卡处理的feature map数目重复的加倍了,当然由于上下采样并不是严格的互逆运算,所以在重复的特征图上像素值还是存在差异。反之,如果是在channel 维度上拼接,此时channel 的数量增加了,也就是说同一个大小的特征图有了更多的特征表示,很多论文都已经证实其可以提高检测性能,但是如果不是cancat的方式,而是增加原有的卷积层的channel数目会导致显存占用增加,速度下降,这样一来concat的方式在不失速度的前提下,提高了精度,这也是其主要的贡献。当然光说不行,我把这两种方法都试验一下,供大家参考。

在试验之前介绍一下我的环境,我采用的是VGG模型加的改进,训练中用了4个TITAN X,minibatch等于8,在保证其它情况一致的情况下进行如下试验:

  1. 在num维度上进行拼接;显然,在num维度上拼接的话,concat层输出的num个数就变成16了,如下表统计的结果显示,此种操作的效果很差,出现missing GT position for label的warning,不建议使用。
  2. 在channel维度上进行拼接,在channel维度上的拼接分成无BN层和有BN层。

(1)无BN层:直接将deconvolution layer 和convolution layer concat。实验结果表明,该方式取得的结果精度较低,低于原有的VGG模型,分析主要的原因是漏检非常严重,原因应该是concat连接的两层参数不在同一个层级,类似BN层用在eltwise层上。

(2)有BN层:在deconvolution layer 和convolution layer 后面加batchnorm和scale层(BN)后再concat。实验结果表明,该方式取得了比原有VGG模型更好的检测效果(表中的迭代次数还没有完哦),增加了2%的精度,但是速度上慢了一些。

 

总结:concat层多用于利用不同尺度特征图的语义信息,将其以增加channel的方式实现较好的性能,但往往应该在BN之后再concat才会发挥它的作用,而在num维度的拼接较多使用在多任务问题上,将在后续的博客中介绍,总之concat层被广泛运用在工程研究中。

我们都在通往真理的路上。

二. Eltwise层

 

 Eltwise层的操作有三个:product(点乘), sum(相加减) 和 max(取大值),其中sum是默认操作。

 

  假设输入(bottom)为A和B,如果要实现element_wise的A+B,即A和B的对应元素相加,prototxt文件如下:

 

layer 
{
  name: "eltwise_layer"
  type: "Eltwise"
  bottom: "A"
  bottom: "B"
  top: "diff"
  eltwise_param {
    operation: SUM
  }
}​

 

 

  如果实现A-B,则prototxt为:

 

layer 
{
  name: "eltwise_layer"
  type: "Eltwise"
  bottom: "A"
  bottom: "B"
  top: "diff"
  eltwise_param {
    operation: SUM
    coeff: 1
    coeff: -1
  }
}​

 

  其中A和B的系数(coefficient)都要给出!

      总结:concat层多用于利用不同尺度特征图的语义信息,将其以增加channel的方式实现较好的性能,但往往应该在BN之后再concat才会发挥它的作用,而在num维度的拼接较多使用在多任务问题上,将在后续的博客中介绍,总之concat层被广泛运用在工程研究中。

 

参考:[1]https://www.cnblogs.com/cvtoEyes/p/8602739.html

### 回答1: Torch中的`concat`是用于对张量进行拼接的操作。拼接操作是指将多个张量按照指定的维度连接在一起,生成一个新的张量。 在torch中,我们可以使用`torch.cat`函数来进行拼接操作。`torch.cat`函数接受一个张量列表以及指定的维度作为参数。它会将列表中的张量按照指定的维度进行拼接,并返回拼接后的新张量。 例如,假设我们有两个张量`a``b`,形状分别为`(2, 3)``(2, 2)`,并且我们希望将它们按照行(维度0)进行拼接。我们可以使用`torch.cat`函数进行如下操作: ``` import torch a = torch.tensor([[1, 2, 3], [4, 5, 6]]) b = torch.tensor([[7, 8], [9, 10]]) c = torch.cat((a, b), dim=1) print(c) ``` 运行结果如下: ``` tensor([[ 1, 2, 3, 7, 8], [ 4, 5, 6, 9, 10]]) ``` 可以看到,`torch.cat`函数将`a``b`按照行进行了拼接,形成了新的张量`c`。 需要注意的是,拼接操作时,除了指定拼接的维度外,其他维度的形状必须保持一致。例如,上面的示例中,`a`的形状是`(2, 3)`,`b`的形状是`(2, 2)`,拼接的维度是维度0,所以在维度1上,两个张量的形状必须保持一致,即32。 总之,`torch.cat`函数是用于拼接张量的函数,它允许我们在指定的维度上对多个张量进行拼接,生成一个新的张量。 ### 回答2: torch的concat是一个在PyTorch中用于拼接多个张量的操作。它将多个张量沿着指定的维度进行拼接,生成一个新的张量。 使用concat时,我们需要指定拼接的维度,也就是在哪个维度上进行拼接。比如,假设有两个张量AB,它们的维度分别是(3, 4, 5)(3, 2, 5),如果我们想在第二个维度上进行拼接,那么可以使用torch.cat([A, B], dim=1)来完成拼接操作。 拼接操作的结果将是一个新的张量,其维度将会根据拼接的维度来确定。在上面的例子中,拼接后的张量的维度将变为(3, 6, 5),其中第二个维度的大小由原来的4+2=6决定。 需要注意的是,拼接操作要求除了拼接维度外,其他维度的大小必须一致。否则,拼接操作将无法进行。此外,输入的张量类型应该是相同的,否则拼接操作也无法进行。 拼接操作在深度学习中非常有用,特别是在处理时间序列数据或者卷积神经网络中。可以使用concat将多个特征或者多个网络的输出进行拼接,以提供更丰富的信息给后续的网络或模型。 总而言之,torch的concat是一个用于拼接多个张量的操作。它通过指定拼接的维度,将多个张量进行拼接生成一个新的张量,用于提供更丰富的信息给后续的网络或模型。 ### 回答3: torch中的concat是指在给定维度上连接(拼接)多个张量的操作。在PyTorch中,可以使用torch.cat()函数来实现concat操作。 torch.cat()函数的语法为: torch.cat(tensors, dim=0, out=None) -> Tensor 其中,tensors是一个张量序列(列表),dim是需要连接的维度,out是输出结果的张量。函数会将tensors中的张量按照指定的dim维度进行连接,并返回连接后的张量。 举个例子来说,假设有两个张量AB,它们的大小分别为(3, 2)(3, 4)。如果我们想要沿着列的方向进行拼接,即dim=1,可以使用以下代码: C = torch.cat((A, B), dim=1) 最终得到的C为一个大小为(3, 6)的张量,其中第1维(行数)不变,第2维变为AB的列数之。 总结来说,torch中的concat提供了一种便捷的方式来将多个张量在指定维度上进行拼接。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值