Pyramid Attention Network for Semantic Segmentation讲PAN用于语义分割,网络结构类似encoder-decode, u-shape。
背景
encoder-decoder结构,
在encoding到高维度特征的过程中,原始的纹理信息会遭遇空间分辨率损失,例如FCN。
PSPNet和DeepLab用了空间金字塔和空洞卷积(ASPP)来对应这个问题,
然而ASPP容易引起grid artifacts, 空间金字塔会损失像素级别的定位信息。
作者从SENet和Parsenet中获得灵感,从高维特征中提取pixel level的attention信息。
PAN由2个结构组成,FPA(Feature Pyramid Attention)和GAU(Global Attention Upsample),
FPA类似于encoder和decoder的连接处,作用是增大感受野,区分较小的目标。
GAU类似FCN后面decoder的上采样,同时还能从高维度特征中提取attention信息,计算量也不会很大。
Related work
PAN结构类似于encoder-decoder, attention, 还考虑了PSPNet中的空间金字塔结构,
所以类似的work就有encoder-decoder, Global Context Attention, 空间金字塔。
encoder-decoder: 结构就不多说了,主要特点是连接相邻stage的特征,但没有考虑到全局的特征信息。
Global Context Attention:起源于ParseNet, 应用了一个global branch来增加感受野,加强pixel-wise分类的一致性。
DFN用了一个global pooling分支在U-shape的顶端,使U-shape变成了V-shape.

PAN是一种用于语义分割的网络结构,它结合了FeaturePyramidAttention(FPA)和GlobalAttentionUpsample(GAU)。FPA旨在通过多尺度特征和像素级注意力来解决高维特征的空间分辨率损失问题,而GAU则在上采样的同时引入全局注意力信息,降低了计算复杂度。PAN的设计灵感来源于SENet和PSPNet等,旨在增强模型对不同尺度目标的识别能力和定位准确性。
最低0.47元/天 解锁文章
9888

被折叠的 条评论
为什么被折叠?



