多标签分类(八):Attention-Driven Dynamic Graph Convolutional Network for Multi-Label Image Recognition

注意力驱动的动态图形卷积网络用于多标签图像识别

摘要

  近年来,为了提高多标签图像的识别精度,研究中经常使用图卷积网络(GCN)来建模标签依赖关系。但是,通过计算训练数据的标签共现可能性来构造图可能会降低模型的通用性,特别是当测试图像中存在偶然的共现对象时。我们的目标是消除这种偏差并增强学习特征的鲁棒性。 为此,我们提出了一种注意力驱动动态图卷积网络(ADD-GCN),可以为每个图像动态生成特定图。ADD-GCN采用动态图卷积网络(D-GCN)对语义注意模块(SAM)生成的内容感知类别表示的关系进行建模。

介绍

  自然场景通常包含多个对象。在计算机视觉领域,多标签图像识别是一项基本的计算机视觉任务,在人类属性识、医学图像识别和推荐系统等广泛应用中发挥着关键作用,与单标签分类不同,多标签图像识别需要将多个标签分配给单个图像。 因此,有必要考虑不同标签之间的关系以提高识别性能。
  近年来,图卷积网络(GCN)在图顶点之间的关系建模方面取得了很大的成功。目前最先进的方法利用目标数据集的标签共现先验频率建立一个完整的图来建模每两类之间的标签相关性,取得了显著的效果。然而,为整个数据集构建这样的全局图可能会导致大多数常见数据集出现频率偏差问题。尽管创建者尽了最大的努力,但大多数杰出的视觉数据集还是遭受了同时发生的频率偏差的困扰。 让我们考虑一个共同的类别“汽车”,它总是与诸如“卡车”,“摩托车”和“公共汽车”之类的不同类型的车辆一起出现。这可能会无意中导致这些数据集的频率偏差,从而引导模型学习它们之间的更高的关系。具体来说,如图1(a)所示,每个图像共享一个静态图,该静态图是通过计算目标数据集中类别的共现频率而构建的。在每个图像中,静态图给出的“汽车”和“卡车”之间的关系值较高,而“汽车”和“厕所”之间的关系值较低。这可能会导致以下几个问题:1)在不同的情况下(例如在没有“卡车”的情况下)无法识别“汽车”,2)即使在只有“汽车”的场景中也会产生“卡车”的幻觉和 3)当“汽车”与“厕所”同时出现时,忽略“厕所”。

  图1表示静态图和动态图。实线表示类别之间的关系较高,虚线表示类别之间的关系较低。(a)说明所有图像共享一个静态图。(b)显示了我们的动机,不同的图像有自己的图,可以描述图像中共发生的范畴之间的关系。 可以看到,在静态图当中,哪怕图片中只存在小汽车,也很可能将卡车也预测出来,所以基于全局的静态图很可能每一次都将关系较高的标签预测出来

  考虑到这些问题,我们的目标是构建一个动态图,以捕捉每个图像的可感知内容的类别关系。具体来说,如图1(b)所示,我们构造了图像特定的动态图,其中“汽车”和“厕所”与“汽车”和“厕所”一起出现的图像具有很强的联系。 反之亦然。为此,我们提出了一种用于多标签图像识别的注意力驱动动态图卷积网络(ADD-GCN),它利用内容感知的类别表示来构造动态图表示,与以前的基于图的方法不同,ADD-GCN通过估计图像特定的动态图为每个输入图像建模语义关系。具体来说,我们首先通过语义注意模块(SAM)将卷积特征图分解为多个内容感知的类别表示形式,然后将这些表示形式输入到动态GCN (D-GCN)模块中,该模块通过静态图和动态图两种联合图进行特征传播。最终,由D-GCN生成用于多标记分类的区分性载体。 静态图主要捕获训练数据集上的粗标签依赖关系,并学习如图1(a)所示的语义关系。动态图的相关矩阵是应用于每个图像的内容感知类别表示的轻量级网络的输出特征图,并用于捕获这些内容感知类别表示的细微依赖关系,如图1(b)所示。
  我们的主要贡献可以总结如下:
∙ \bullet  本文的主要贡献在于,我们介绍了一种基于内容感知类别表示构造的新颖动态图,用于多标签图像识别。 动态图能够以自适应方式捕获特定图像的类别关系,从而进一步增强了其代表性和判别能力。
∙ \bullet  我们精心设计了一个端到端注意力驱动动态图卷积网络(ADD-GCN),该网络由两个联合模块组成。 i)语义注意模块(SAM),用于定位语义区域并为每个图像生成内容感知的类别表示;以及ii)动态图卷积网络(D-GCN),用于对内容感知的类别表示的关系进行建模以进行最终分类。

3.方法

  本节介绍了用于多标签图像识别的注意力驱动动态图卷积网络(ADD-GCN)。 我们首先简要介绍ADD-GCN,然后详细描述其关键模块(语义注意模块和动态GCN模块)。

3.1 ADD-GCN概述

  图像中的目标总是同时出现在图像中,如何有效地捕捉它们之间的关系是多标记识别的一个重要问题。基于图的表示方法为标签相关性建模提供了一种实用的方法。我们可以用节点 V = [ v 1 , v 2 , . . . v C ] V = [v_1,v_2,...v_C] V=[v1,v2,...vC]表示标签,相关矩阵 A A A表示标签关系(边).最近的研究利用图卷积网络(GCN)来提高多标签图像识别的性能。但是,它们以静态方式构造相关矩阵A,该矩阵主要考虑训练数据集中的标签共现,并针对每个输入图像进行固定。 结果,他们无法明确利用每个特定输入图像的内容
  为了解决这个问题,本文提出了具有两个精心设计的模块的ADD-GCN:我们首先引入语义注意模块(SAM),以从提取的特征图中估计每个类 c c c的内容感知类别表示 v c v_c vc,并将表示输入到另一个动态GCN模块,用于最终分类。 我们将在下一部分中详细介绍它们。

   图2表示了我们方法的总体框架。给定一个图像,ADD-GCN首先使用一个CNN骨干提取卷积特征图 X X X,然后SAM将 X X X解耦为可感知内容的类别表示 V V V, D − G C N D-GCN DGCN V V V之间的全局和局部关系建模,以生成最终的健壮表示 Z Z Z,该 Z Z Z包含与其他类别的丰富关系信息

3.2 语义注意模块

  语义注意模块(SAM)的目的是获得一组内容感知的类别表示,每个类别表示都会从输入特征图 X ∈ R H × W × D X∈\mathbb{R}^{H×W×D} XRH×W×D中描述与特定标签有关的内容。如图2所示,SAM首先计算特定类别的激活映射 M = [ m 1 , m 2 , . . . , m C ] ∈ R H × W × C M=[m_1,m_2,...,m_C]∈\mathbb{R}^{H×W×C} M=[m1,m2,...,mC]RH×W×C,然后使用它们将转换后的特征映射 X ′ ∈ R H × W × D ′ X'∈\mathbb{R}^{H×W×D'} XRH×W×D转换为可感知内容的类别表示 V = [ v 1 , v 2 , . . . , v C ] ∈ R C × D V=[v_1,v_2,...,v_C]∈\mathbb{R}^{C×D} V=[v1,v2,...,vC]RC×

评论 25
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值