CCNet学习笔记

最新推荐文章于 2025-03-24 20:31:14 发布

WaitPX

最新推荐文章于 2025-03-24 20:31:14 发布

阅读量3.8k

点赞数 1

分类专栏：目标分割文章标签：深度学习神经网络 pytorch

本文链接：https://blog.youkuaiyun.com/qq_41439608/article/details/121404320

版权

目标分割专栏收录该内容

1 篇文章

订阅专栏

CCNet学习笔记

1.拟解决的问题

（1）长依赖可以来捕获有利于当前任务的上下文信息，这些信息对于视觉理解人物是很重要的。在语义分割任务中基于FCN的语义分割框架取得了很好的成果，但是由于卷积核固定的结构，使其只能接受短程的上下文信息，为了捕获长依赖信息，后面的研究者们设计出了扩张卷积、空间金字塔等方法，然而这些方法并不能生成密集的上下文信息。

（2）为了获取密集的上下文信息，研究者们将attention mechanism引入到了语义分割任务中，但是这些基于注意力机制的方法需要生成巨大的注意力图来计算每个像素之间的关系，其时间复杂度与空间复杂度均为O((HW)(H*W))，因此基于自注意的方法具有高计算复杂度并占据大量GPU内存。

Non-local方法是第一个将self-attention引入到语义分割任务中的，但是其高计算复杂度让其很难应用到下游任务中。因此作者提出了一种十字交叉注意力模块来代替Non-local的方法。这两个方法的结构图如下所示：
在这里插入图片描述
上图中的左边的蓝色的点是当前的像素点，这两个模块的目的是为了获取该像素点下拥有丰富语义的表示，也就是最右面红色的点。关于Non-local模型中需要计算出一个(H*W)*c的矩阵，里面的每个数表示的是每个像素与当前的像素至今的相关性分数，最终将这个矩阵中的数与之前的蓝色表示相乘并累加最终得到一个语义丰富的像素点特征表示。而在十字交叉注意力模块中只需要计算每个像素点所在的行与列中的像素点之间的关系因此只需要计算(H+W-1)*c的矩阵就可以了。

2.CCNet模块

作者基于十字交叉注意力模块设计了一个名为CCNet的语义分割模型，模型的示意图如下：
在这里插入图片描述
模型的流程就是将输入图像经过一个预训练的模型中，在这个模型中作者采用的是ResNet101作为骨干部分，并去除最后的两层下采样层，将之后的卷积核换成扩张卷积核，最终得到了输入图像的特征表示X，然后对这个特征进行一个降维操作，以减少十字交叉注意力模块的计算复杂度，最终得到了特征H。将特征H输入到第一个十字交叉注意力模块中最终得到了一个语义相对丰富的特征表示H’，然后再次将这个特征输入到第二个十字交叉注意力模块中，最终会得到含有丰富语义的特征表示H’’，最后作者采用了残差思想将特征H’’与特征X进行拼接后得到最终的图像特征表示，最后对其进行分割，最终得到分割结果。

3.十字交叉注意力模块

在介绍这个模块之前，我需要说明的是为了减少训练参数的数量，所有十字交叉注意力模块的注意力是共享的。

十字交叉注意力模块的模型如下图所示：
在这里插入图片描述
首先根据输入的特征H，作者采用了三个不同的1*1的卷积核来获取注意力模型中的Q、K、V，其中Q和K的作用是为了获取当前像素与该像素下横向和纵向的像素点之间的相关性。最后将相关性矩阵与V相整合并加上H特征，就得到了含有丰富语义的特征表示H’。

具体的过程就是：
（1）要计算Q中每个位置下的像素点与K中该位置下的十字空间中的像素点之间的相关性。其公式如下：
在这里插入图片描述
其中 $Q_u$ 表示的是Q特征图中u位置对应的特征向量，shape为[1,C]， $\Omega_{u}$ 指的是K中u所在位置的水平像素以及垂直像素的集合，shape为[H+W-1,C]，而 $\Omega_{i,u}$ 指的是其中的第i个像素。
（2）将Q中每个位置的像素点都计算完之后，最终得到了像素之间的相关性表示张量A，其维度为(H+W-1)×(W*H)，(H+W-1)表示是每个像素点的十字区域内的像素点的总数。