摘要
在这个工作中,我们提出了“残差注意网络”,它是一种使用注意力机制的卷积神经网络,能够将最先进的前馈神经网络机制融合到端对端的训练中。我们的残差注意网络是由生成注意力感知特征的注意力模块堆叠而成的。注意力感知特征会随着层数的加深自适应地改变。在每个注意力模块的内部,自上而下自下而上的前馈结构能够将前馈和反馈结构展开到单个的前馈过程中。重要的事,我们提出的注意力残差学习非常深的残差注意网络,能够轻松地扩展到数百层。
我们对CIFAR-10和CIFAR-100数据集进行了广泛的分析,以验证上述每个模块的有效性。我们的剩余注意力网络在三个基准数据集上实现了最先进的物体识别性能,包括CIFAR-10(3.90%误差),CIFAR-100(20.45%误差)和ImageNet(4.8%单一模型和单一作物,顶部 - 5错误)。请注意,与ResNet-200相比,我们的方法实现了0.6%的前1精度提升,46%的主干深度和69%的前向FLOP。该实验还表明,我们的网络可以抵御嘈杂的标签。
1 介绍
不止是友好的脸,而且红色也会引起我们的注意。在之前的文献中已经广泛地研究了混合特征。注意力不仅服务于选择聚焦位置,而且鼓励该位置处目标的不同表示。之前的工作将注意力漂移作为一个序列过程来捕捉不同的参与方面。然而,据我们所知,在图像分类任务没有注意力机制中被应用于前馈网络结构来实现最先进的结果。最近在图像分类任