add_with_concat

最新推荐文章于 2024-09-11 14:25:53 发布

原创最新推荐文章于 2024-09-11 14:25:53 发布 · 256 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #pytorch #神经网络

计算机视觉同时被 3 个专栏收录

33 篇文章

订阅专栏

神经网络

30 篇文章

订阅专栏

目标检测

24 篇文章

订阅专栏

特征融合在深度学习中至关重要，主要分为Add和Concat两种方式。Add操作通过相加整合特征，常用于ResNet和FPN；Concat操作则是通道拼接，常见于UNet和DenseNet。Add操作假设特征语义相似，节省参数，而Concat则能保留更多特征信息。在选择融合方式时，若特征语义不同，适合用Concat；若语义相同或分辨率不同，Add更为合适。

特征融合目前有两种常用的方式，一种是 $a d d$ 操作，这种操作广泛运用于 $R e s N e t$ 与 $F P N$ 中。一种是 $C o n c a t$ 操作，这种操作最广泛的运用就是 $U N e t$ ， $D e n s e N e t$ 等网络中。如下图所示：

也有如 $H R N e t$ 这样的，多分辨率之间使用 $a d d$ 形式的特征融合。

代码演示

>>> import torch
>>> img1 = torch.randn(2, 3, 58, 58)
>>> img2 = torch.randn(2, 3, 58, 58)
>>> img3 = img1 + img2
>>> img4 = torch.cat((img1, img2), dim=1)
>>> img3.size()
torch.Size([2, 3, 58, 58])
>>> img4.size()
torch.Size([2, 6, 58, 58])
>>>

那么对于 $A d d$ 操作与 $C o n c a t$ 操作，它们中间有哪些区别与联系呢？

联系

$a d d$ 和 $c o n c a t$ 形式都可以理解为整合多路分支 $f e a t u r e$ $m a p$ 的信息，只不过 $c o n c a t$ 比较直观(同时利用不同层的信息)，而 $a d d$ 理解起来比较生涩(为什么两个分支的信息可以相加？)。 $c o n c a t$ 操作时时将通道数增加， $a d d$ 是特征图相加，通道数不变。

对于两路通入而言，其大小( $H, W$ )是一样的。假设两路输入的通道分别为 $X_{1}, X_{2}, … X_{c}$ ， $Y_{1}, Y_{2},…Y_{n}$ 。

则对于 $C o n c a t$ 的操作，通道数相同且后面带卷积的话， $a d d$ 等价于 $c o n c a t$ 之后对应通道共享同一个卷积核。

当我们需要聚合的两个分支的 $F e a t u r e$ 叫做 $X$ 与 $Y$ 的时候，我们可以使用 $C o n c a t$ , 概括为：
$Z_{out}=\sum_{i=1}^{c} X_{i} * K_{i}+\sum_{i=1}^{c} Y_{i} * K_{i+c}$

对于 $a d d$ 的操纵，可以概括为：
$Z_{\text {add }}=\sum_{i=1}^{c}\left(X_{i}+Y_{i}\right) * K_{i}=\sum_{i=1}^{c} X_{i} * K_{i}+\sum_{i=1}^{c} Y_{i} * K_{i}$
因此，采用 $a d d$ 操作，我们相当于加入一种先验。当两个分支的特征信息比较相似，可以用 $a d d$ 来代替 $c o n c a t$ ，这样可以更节省参数量。