具有区域潜在语义相关性的多标签图像分类
来自2018年的CVPR
摘要
深度卷积神经网络(CNN)在单标签图像分类方面表现出了先进的性能,在多标签图像分类方面也取得了长足的进展。多标签图像分类需要在一个镜头中标注物体、属性、场景类别等.目前的多标签图像分类方法利用了图像中标签的相关性,在全局范围内极大地提高了标签的能力。然而,由于对全局视觉特征的识别有限,预测小物体和视觉概念仍然是一个挑战.在本文中,我们提出了一个区域潜在语义依赖模型(RLSD)来解决这个问题,所使用的模型包括一个完全卷积的定位架构来定位可能包含多个高度依赖标签的区域.局部区域被进一步发送到递归神经网络(RNN)来表征区域层次上潜在的语义依赖.在几个基准数据集上的实验结果表明,我们提出的模型取得了最好的性能相比于最新的模型,特别是用于预测图像中出现的小物体.此外,我们在训练过程中利用边界盒坐标建立上界模型(RLSD+ft-RPN),实验结果也表明,我们的RLSD可以在不使用边界盒标注的情况下接近上界,在现实世界中更加真实
1.介绍
由于网络访问的便利和数字设备的广泛使用,大尺度图像已变得广泛可用,这为研究人员了解这些图像提供了各种机会,图像分类作为一项传统的任务,已经进行了几十年的全面研究,特别是对于单标签分类问题,已经取得了各种进展,而在现实世界中,图像通常包含着丰富的语义信息,如物体、属性、动作、场景等.通过给图像分配多个标签,可以将视觉信息转化为语言,便于理解,并可用于图像检索和语义分割等其他可视化应用.
此任务背后的关键问题是弥合图像可视内容和多个标签之间存在的语义差距.图1给出了多标签图像的示例.随着大规模数据集的可用和数据标注的丰富,多标签图像分类引起了人们的广泛关注,受到深度神经网络,特别是卷积神经网络先进性能的启发,人们在将神经网络应用于多标签分类问题上做出了各种努力。
图一:多标签图像的一个例子。红色箭头表示图像内容和标签之间的视觉相关性,蓝色点线表示标签之间存在语义依赖性。
最直接的方法是将多标签图像分类问题视为几个单独的单标签分类问题,并使用交叉熵或排名损失来训练每个标签的独立分类器。weet 提供了一个区域解决方案,允许在区域级别上独立地预测标签,但是,他们很难建立不同标签之间的标签依赖的模型,直观上看,多标签的图像中标签之间的相关性很强,例如ocean和ship通常出现在同一幅图像中,而ocean和cat通常不会同时出现,为了方便地探索标签依赖关系,在以往的工作中通常采用概率图形模型(PGM)
最近,Wang等证明了递归神经网络(RNN)可以有效地捕获高阶标签依赖关系,他们将CNN和RNN统一为一个框架,在全局层面上挖掘标签依赖,极大地提高了标签的能力,然而,由于对全局视觉特征的识别有限,预测小物体和属性对于这些工作来说仍然是一个挑战。
在本文中,我们的主要贡献是提出了一个用于多标签图像分类的区域潜在语义依赖(RLSD)模型,该模型有效地捕获了区域层面上的潜在语义依赖。该模型结合了区域特征的优点和基于RNN的标签共现模型的优点,与目前最先进的多标签分类模型相比,在多个基准数据集上取得了最好的性能,特别是在预测小目标和视觉概念方面。图2显示了我们提出的RLSD模型与基线模型的示例输出。我们可以看到,在Multi-CNN和CNN+LSTM中,由于图片中的“瓶子”、“花瓶”和“酒杯”体积较小,所以没能预测出它们,而我们的模型有效地预测了它们和其他大型物体。
图2:不同模型多标签预测实例结果,左边是ground-truth,中间的一列是来自基线模型、Multi-CNN和CNN+LSTM的结果,右列显示我们提出的RLSD模型的输出,包括预测的多个标签和选定的区域,与基线方法相比,我们的模型预测效果更加丰富,尤其擅长预测小物体,如瓶子、酒杯、花瓶等。
所提模型的框架如图3所示。首先通过CNN对输入图像进行处理,提取卷积特征,然后将其发送到RPN-like (Regional Proposal Network)定位层,与传统的目标检测框架中的RPN(如faster R-CNN)不同,RPN试图用一个单一的目标来预测提案,我们的定位层被设计用于定位图像中可能包含多个语义依赖标签的区域,利用全连接神经网络对这些区域进行编码,再将其发送给RNN, RNN在区域层面捕获潜在的语义依赖关系,RNN单元根据定位层的输出和先前的递归神经元的输出顺序输出多类预测.最后,执行最大池化操作以融合所有区域输出作为最终预测。
此外,我们还建立了一个上界模型(RLSD+ft-RPN),利用对象限定框坐标进行训练。我们的实验结果表明,我们的模型可以达到这个上限,而不涉及额外的限定框注释,这在现实世界中更加真实。
2.相关工作
在过去的几年中,人们对多标签图像分类进行了大量的研究。基于强大的深度卷积神经网络,在图像分类方面取得了最新进展,该网络尝试通过使用由多个非线性变换组成的架构来对视觉数据的高级抽象进行建模。已有几种方法将单标签分类网络扩展到多标签问题。Gong等人结合top-k排名目标与CNN架构来解决这个问题。通过为成对排序标签定义权重函数,使损失函数最小化,使正标签的排序高于负标签。weet al.提供了一个区域解决方案,允许在区域级别上独立地预测标签。他们使用BING生成对象建议,并进一步将其发送到CNN来计算多类得分。应用最大池化操作将区域得分融合在一起作为最终分类结果。我们还使用了区域特征和最大池融合。然而,我们考虑区域潜在语义依赖,这允许我们联合预测多个标签。
还有一些研究通过设计多模态表示方法来解决多标签分类问题,通过学习图像视觉内容和标签的表示方法来弥合图像和标签之间的语义鸿沟。通常采用典型相关分析(CCA)和核典型相关分析(KCCA)构建潜在语义空间来解决多标签图像标注和检索问题。这些方法侧重于挖掘标签丰富的语义信息,而忽视了标签之间的依赖关系。
为了建立标签依赖的模型,提出了几种方法。在之前的工作中,对图像特征标签联合分布进行建模.有几种不同的图结构可以实现这一目的.基于图的方法的一个局限性是,标签语义信息越丰富,图就越复杂,计算复杂度高,效率低.此外,上述所有方法都只在全局层次上对标签依赖进行建模
递归神经网络(RNN)已被证明能够有效地建立一个序列的时间依赖性模型,并已成功地应用于多个序列对序列的问题.Wang等表明,RNN可以有效地捕获高阶标签依赖关系,他们将CNN和RNN统一为一个框架,在全局层面上利用标签依赖性,极大地提高了标签的能力,我们也应用RNN来捕获标签的依赖关系,但与上述不同的是,我们的区域潜在语义依赖模型考虑了区域层面上的标签依赖,使我们能够预测小尺寸物体和视觉概念
我们提出利用区域建议网络、全连接识别网络和RNN共同提取具有丰富语义信息的图像区域,同时探索潜在的语义依赖关系
3. RLSD模型
a)框架概述:该模型的关键特征是能够捕获区域语义标签的依赖关系。其新颖之处在于,这是由一个本地化体系结构实现的,然后是一些LSTMs(长-短期内存)。定位层的目的是定位包含多个高度依赖标签的区域,而LSTMs被用来按顺序描述潜在语义标签依赖关系。执行一个max-pooling操作以最终融合所有区域输出。图3显示了我们提出的模型的整个网络:
图3:我们提出的区域潜在语义依赖模型。首先通过CNN对输入图像进行处理,提取卷积特征,然后将其发送给类似于RPN的全卷积定位层。定位层定位图像中可能包含多个高度依赖标签的区域,用全连接神经网络对这些区域进行编码,并发送到区域LSTM中。最后进行max-pooling操作,融合所有区域输出作为最终预测
接下来的章节III-A首先介绍了定位层,章节III-B描述了基于LSTM的标签序列预测模型,最大池化操作和损失函数概述在第III-C节,模型初始化和一些训练细节在章节III-D 节给出
A.本地化多标签区域
为了在区域层次上探索图像,我们需要生成可能包含多个对象和视觉概念的区域,因此,我们提出的模型的第一个组成部分是定位这些区域。传统的目标建议算法(如选择性搜索,Objectness, BING和MCG等)被排除,因为这些方法只关注预测单一候选目标,这意味着一个候选区域通常只包含一个单一的目标。Johnson等人提出了一种全卷积神经网络,它是在候选区域网络(RPN)[14]的基础上扩展而来的,用于定位可以用一句话而不是单个标签来描述的区域。因此,提出的区域通常具有较大的标签密度和标签复杂度,受他们工作的启发,我们开发了一种针对多标签图像分类的候选区域生成方法。
1)卷积特征作为输入:由于CNN的卷积层仍然保留了图像的空间信息,这是我们探索区域层面上的语义依赖关系所必需的,所以我们使用它来提取图像特征。具体来说,我们使用VGGNet卷积层配置,它由13个卷积层(具有3×3的内核大小)和5个最大池层(具有2×2的内核大小)组成。最后一个卷积层的输出作为图像特征。给定一个大小为 3 × H × W 3×H×W 3×H×W的输入图像,卷积特征为 C × H ′ × W ′ C×H'×W' C×H′×W′,其中 H ′ = H / 16 , W = W / 16 , C = 512 H' = H/16,W = W/16 ,C = 512 H′=H/16,W=W/16,C=512,与VGGNet设置相同,卷积特征被进一步发送到定位层,以生成我们感兴趣的候选区域。
2)全卷积定位层:定位层的输入是最后一步提取的卷积特征,而输出是感兴趣的空间区域的数量,每个区域都有固定大小的表示
a)锚点与回归:我们通过回归一组生成锚点的偏移量来预测候选区域,具体来说,将卷积特征图内部的每个点投影回原始图像(H×W),并以其为中心生成k个不同高宽比的锚盒(框),每个锚框被送到一个全卷积的网络中,以产生预测的盒标度和置信分数。全卷积网络由256个核大小为3×3的卷积滤波器,一个ReLU层,最后一个带有 ( 4 + 1 ) × k (4 + 1)×k (4+1)×k个滤波器的卷积层组成,其中4为盒标量的数目,1为置信分数,在我们提出的模型中,我们设k = 12.我们在锚框上应用对数空间缩放变换,这意味着给定锚框的参数 ( a x , a y , a w , a h ) (a_x,a_y,a_w,a_h) (ax,ay,aw,ah),其中 ( a x , a y ) (a_x,a_y) (ax,ay)是锚框的中心, a