第十七章：DANet——Dual Attention Network for Scene Segmentation ——双重注意力网络用于场景分割

原创

已于 2023-07-30 22:01:19 修改 · 4k 阅读

35 ·

CC 4.0 BY-SA版权

文章标签：

#计算机视觉 #人工智能 #深度学习 #机器学习 #神经网络 #cnn

于 2023-07-16 20:44:06 首次发布

本文提出了一种名为DANet的双重注意力网络，用于解决场景分割任务中的上下文依赖问题。DANet通过位置注意力模块和通道注意力模块捕获空间和通道维度的长距离上下文信息，增强特征表示，提高了分割准确性。在Cityscapes、PASCALContext和COCOStuff数据集上，DANet实现了最先进的分割性能。

&原文信息

原文：<Dual Attention Network for Scene Segmentation>

引用：Fu J, Liu J, Tian H, et al. Dual attention network for scene segmentation[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2019: 3146-3154.

原文链接:https://arxiv.org/pdf/1809.02983.pdfhttps://arxiv.org/pdf/1809.02983.pdf

0.摘要

在本文中，我们通过基于自注意机制捕捉丰富的上下文依赖来解决场景分割任务。与以往通过多尺度特征融合来捕捉上下文的方法不同，我们提出了一种双重注意力网络（DANet），以自适应地将局部特征与全局依赖性相结合。具体而言，我们在扩张的FCN之上附加了两种类型的注意力模块，分别对空间和通道维度中的语义依赖关系进行建模。位置注意力模块通过对所有位置的特征进行加权求和，选择性地聚合每个位置的特征。无论距离如何，相似的特征都会相互关联。同时，通道注意力模块通过整合所有通道图像中的相关特征，选择性地强调相互依赖的通道图像。我们将两个注意力模块的输出相加，进一步改善特征表示，从而为更精确的分割结果做出贡献。我们在三个具有挑战性的场景分割数据集上取得了最新的分割性能，即Cityscapes，PASCAL Context和COCO Stuff数据集。特别是，在不使用粗数据的情况下，我们在Cityscapes测试集上实现了81.5％的Mean IoU分数。

图1：场景分割的目标是识别包括物体和区域在内的每个像素。物体/区域的各种尺度、遮挡和光照变化使得解析每个像素变得具有挑战性。

1.引言

场景分割是一个基础且具有挑战性的问题，其目标是将场景图像分割和解析为与语义类别相关的不同图像区域，包括场景元素（如天空、道路、草地）和离散对象（如人、汽车、自行车）。对这个任务的研究可以应用于潜在的应用场景，如自动驾驶、机器人感知和图像编辑。为了有效地完成场景分割任务，我们需要区分一些容易混淆的类别，并考虑具有不同外观的对象。例如，“田地”和“草地”的区域通常难以区分，“汽车”的对象可能经常受到尺度、遮挡和光照的影响。因此，有必要增强像素级别识别的特征表示的区分能力。

最近，基于全卷积网络（FCN）[13]的最先进方法被提出来解决上述问题。一种方法是利用多尺度上下文融合。例如，一些方法[3,4,30]通过结合不同的扩张卷积和池化操作生成的特征图来聚合多尺度上下文。另一些方法[15,28]通过扩大卷积核大小、引入有效的编码层等方式来捕捉更丰富的全局上下文信息。此外，编码器-解码器结构[6,10,16]被提出来融合中层和高层语义特征。尽管上下文融合有助于捕捉不同尺度的物体，但它不能从全局视角利用物体或场景元素之间的关系，而这对于场景分割也是必不可少的。

另一类方法利用循环神经网络来利用长距离依赖关系，从而提高场景分割的准确性。基于2D LSTM网络的方法[1]被提出来捕捉标签之间的复杂空间依赖关系。工作[18]构建了一个带有有向无环图的循环神经网络，以捕捉局部特征之间丰富的上下文依赖关系。然而，这些方法通过循环神经网络隐式地捕捉全局关系，其有效性高度依赖于长期记忆的学习结果。

（LSTM（Long Short-Term Memory：长短期记忆）网络是一种特殊的循环神经网络（Recurrent Neural Network，RNN），主要用于处理和建模序列数据。相比于传统的RNN，LSTM网络能够更好地处理长期依赖关系，避免了传统RNN中的梯度消失和梯度爆炸问题。 LSTM网络中的基本组成单元是LSTM单元，它包含了三个关键的门控机制：输入门（input gate）、遗忘门（forget gate）和输出门（output gate）。这些门控机制能够根据输入和当前状态，选择性地更新和传递信息）

为了解决上述问题，我们提出了一种新的框架