[ICCV2019论文阅读]Asymmetric Non-local Neural Networks for Semantic Segmentation

最新推荐文章于 2025-03-09 17:00:33 发布

gefeng1209

最新推荐文章于 2025-03-09 17:00:33 发布

阅读量3.2k

点赞数

分类专栏：医学图像分割

本文链接：https://blog.youkuaiyun.com/gefeng1209/article/details/103241399

版权

医学图像分割专栏收录该内容

14 篇文章

订阅专栏

本文提出APNB和AFNB两种方法，优化Non-local网络在语义分割任务中的计算效率和性能。APNB通过金字塔池化减少特征点，降低计算复杂度；AFNB融合多级特征，提升分割效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

作者：Zhen Zhu, Mengde Xu, Song Bai, Tengteng Huang, Xiang Bai
机构：Huazhong University of Science and Technology, University of Oxford

1. 背景

在语义分割任务中，长距离依赖无法通过简单的卷积操作获得，wang等人在Non-local neural networks中提出的non-local block使得特征图上每个位置的输出都结合了整个图片上所有位置上的特征，使得分割网络的结果得到提升。然而，non-local block的计算量较大，需要较大的显存开销，这阻碍了non-local network在实际应用中的使用。本文提出了APNB来减少non-local block的计算量和显存开销,AFNB通过提升分割性能增强non-local block的学习能力。

2. 方法--Asymmetric Non-local Neural Network

2.1. Revisiting Nonlocal Block

输入 $X \in \mathbb{R}^{C*H*W}$

1.经过3个1*1的卷积Query，Key和Value变换之后，分别得到 $\varnothing \in \mathbb{R}^{\hat{C}*H*W}==\mathbb{R}^{\hat{C}*N}$ ， $\theta \in \mathbb{R}^{\hat{C}*H*W}==\mathbb{R}^{\hat{C}*N}$ ， $\gamma \in \mathbb{R}^{\hat{C}*H*W}==\mathbb{R}^{\hat{C}*N}$

2.计算所有空间位置特征向量的相似度： $V=\varnothing ^{T}*\theta$

3.归一化： $\overrightarrow{V}=softmax(V)$

4.根据所有空间位置特征向量的相似度加权求和： $O=\overrightarrow{V}*\gamma^ {T}$

5.新特征经过1*1卷积变换后与原输入特征拼接： $Y = cat\left(W_{o}\left(O^{T} \right ),X\right)$

计算复杂度： $O\left ( \hat{C}N^{2} \right )=O\left ( \hat{C}H^{2}W^{2} \right )$

2.2. Asymmetric Pyramid Nonlocal Block(APNB)

Non-local的计算复杂度主要来自第2步和第4步：

Intuitive Observation：将N减小为S，不会改变输出的size

将N减少到S相当于从 $\theta$ 和 $\gamma$ 采样一些特征点，代替使用H*W空间范围内的点，如图1所示，增加两个采样模块 $P_{\theta}$ 和 $P_{\gamma }$ ，采样一些稀疏的锚点 $\theta_{P}\in\mathbb{R}^{\hat{C}*S}$ 和 $\gamma _{P}\in\mathbb{R}^{\hat{C}*S}$ ，S就是锚点的数量。

2.采样： $\theta_{P} = P_{\theta}\left ( \theta\right )$ , $\gamma _{P} = P_{\gamma }\left ( \gamma \right )$

3.计算所有空间位置与S个采样点的特征相似度： $V_{P}=\varnothing ^{T}*\theta_{P}$

4.归一化： $\overrightarrow{V_{P}}=softmax(V_{P})$

5.根据相似度加权求和： $O_{P}=\overrightarrow{V_{P}}*\gamma_{P}^ {T}$

5.新特征经过1*1卷积变换后与原输入特征拼接： $Y_{P} = cat\left(W_{o}\left(O_{P}^{T} \right ),X\right)$

计算复杂度： $O\left ( \hat{C}NS\right )< < O\left ( \hat{C}H^{2}W^{2} \right )$

APNB的锚点采样策略：

通过金字塔池化对Key路径和Value路径得到的特征图 $\theta \in \mathbb{R}^{\hat{C}*N}$ 和 $\gamma \in \mathbb{R}^{\hat{C}*N}$ 进行下采样，得到 $\theta _{P}\in\mathbb{R}^{\hat{C}*S}$ 和 $\gamma _{P}\in\mathbb{R}^{\hat{C}*S}$ .

4种不同尺度的池化操作：{1,3,6,8},采样的锚点数量=110

2.3. Asymmetric Fusion Nonlocal Block(AFNB)

为了能够融合来自多个级别的特征，文章提出了AFNB，因为APNB模块后续计算允许特征图不同大小N和S，所以我们可以让APNB输入的特征图来自网络不同的level，即AFNB。如下图，Query路径的特征图 $X_{h}$ 来自high-level层级，Key路径和Value路径的特征图 $X_{l}$ 来自low-level级别。