自注意力机制GCNet: Non-local Networks Meet Squeeze-Excitation Networks and Beyond

GCNet通过分析发现非局部网络(NLNet)的全局上下文对不同查询位置几乎相同,提出了一种简化设计,减少了计算量但保持准确性。GCNet结合了NLNet和SENet的特性,形成了一个轻量级的全局上下文建模框架,用于高效捕获长距离依赖关系,提升视觉识别任务的表现。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

paper: https://arxiv.org/pdf/1904.11492.pdf
PyTorch代码: https://github.com/shanglianlm0525/PyTorch-Networks

Abstract
NL提出了一种开拓性的方法,通过将查询特定的全局上下文聚合到每个查询位置来捕获长期依赖关系。然而分析发现NL网络建模的全局上下文对于图像中的不同查询位置几乎是相同的。在本文中,我们利用这一发现创建了一个基于查询独立公式的简化网络,它保持了NLNet的准确性,但计算量显著减少。我们进一步观察到,这种简化设计SENet具有相似的结构。因此,我们将它们统一为一个三步通用的全局上下文建模框架。在通用框架中,我们设计了一个更好的实例化,称为全局上下文(GC)块,它是轻量级的,可以有效地建模全局上下文,它的轻量级特性允许我们将其应用于骨干网的多个层次,从而构建一个全局上下文网络。

Motivation
长距离依赖的捕获,旨在提取视觉场景的全局理解,被证明有利于广泛的识别任务,如图像/视频分类,目标检测和分割。在卷积神经网络中,由于卷积层在局部邻域内建立像素关系,其长期依赖关系主要通过卷积层的深度叠加来建模。然而,直接重复卷积层在计算上是低效的,并且难以优化。这将导致远程依赖建模的无效,部分原因是由于在远距离位置之间传递信息的困难。

为了解决这个问题,non-local提出通过自关注机制使用一层来建模远程依赖。对于每个查询位置,非局部网络首先计算查询位置与所有位置之间的成对关系,形成注意图,然后将所有位置的特征与注意图中定义的权值进行加权和聚合。最后将聚合的特性添加到每个查询位置的特性中,形成输出。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值