多标签分类(五):Learning Spatial Regularization with Image-level Supervisions for Multi-label Image Classif

使用图像级监督学习空间正则化以进行多标签图像分类

  文章来自于2017年的CVPR,代码地址在https://github.com/zhufengx/SRN_multilabel

摘要

  多标记图像分类是计算机视觉中一项基本而又具有挑战性的任务,近年来,标签间语义关系的研究取得了很大进展。但是,传统的方法无法对多标签图像中标签之间的底层空间关系进行建模,因为通常没有标签的空间标注.在本文中,我们提出了一个统一的深度神经网络,该网络仅利用图像级别的监督即可利用标签之间的语义和空间关系。对于多标签图像,我们提出的空间正则化网络(SRN)生成所有标签的注意图,并通过可学习的卷积捕获它们之间的基本关系,利用ResNet-101网络将正则化的分类结果与原始分类结果进行聚合,可以不断提高分类性能,整个深度神经网络只在图像级标注的情况下进行端到端的训练,无需在图像标注上做额外的工作。对3个使用不同类型标签的公共数据集的广泛评估表明,我们的方法显著优于最新技术,具有很强的泛化能力.对学习的SRN模型的分析表明,该模型能够有效地捕捉标签的语义关系和空间关系,提高分类性能。

1、介绍

  多标签图像分类是计算机视觉中的一项重要任务,应用范围广泛,如场景识别、多目标识别、人属性识别等。与已经被广泛研究的单标签图像分类相比,多标签问题更具有实用性和挑战性,因为现实世界的图像通常与多个标签相关,如物体或属性。
  二值相关性方法是一种简单的扩展单标签算法来解决多标签分类问题的方法,它对每个标签只训练一个二值分类器,针对标签可能涉及整个图像不同视觉区域的问题,提出了将多标签分类问题转化为多个单标签分类任务的方法。然而,这些对现有单标签算法的修改忽略了标签的语义关系
  近年来多标签图像分类的研究主要集中在获取标签之间的语义关系上,这种关系或依赖关系可以通过概率图形模型、结构推理神经网络(Learning structured inference neural networks with label relations)或递归神经网络来建模,虽然语义关系的开发取得了很大的进步,但是现有的方法不能捕捉标签的空间关系,因为它们的空间位置没有被标注出来进行训练.在本文中,我们提出在统一框架下通过空间正则化网络捕获标签的语义关系和空间关系(图1),只需要图像级的监督就可以对标签进行端到端的训练,不需要额外的标注。

  图1阐释使用提出的空间正则化网(SRN)改善多标签图像分类。在图像级的监督下,SRN从标签注意图中学习语义和空间标签关系,首先是输入一张图片,经过CNN网络可以得到初始的标签置信度得分,此时可以看到红色的标签阳光和岩石预测的值并不是太高,于是将图片输入到一个空间正则化网络,网络当中可以获得对于每一个标签的标签注意图,且标签存在则有高亮,标签不存在则无高亮。从图中我们可以看到对于每个标签,亮的地方就表明网络关注到与标签匹配的区域,然后将获得的图学习空间正则化,将其与原始的标签预测进行乘积,最终获得的结果可以明显的看到预测值提高了不少。
  深度卷积神经网络(CNNs)近年来在单标签图像分类方面取得了巨大的成功。由于在大数据集上预先训练的深度CNN模型具有较强的辨别特征的学习能力,因此CNN模型可以很容易地迁移到其他任务中去解决,从而提高其性能,然而,对于具有多个标签的图像,特征表示可能不是最优的,因为一个真实(ground true)标签可能只在语义上与图像的一个小区域相关,多标签图像内容的多样性和复杂性使得学习有效的特征表示和分类器变得困难.
  受最近注意力机制在许多视觉任务中获得成功的启发,我们提出了一种用于多标签分类的深度神经网络,它由子网络空间正则化网(SRN)组成,用于仅在图像级监督下学习标签之间的空间正则化.SRN为每个标签学习一个注意图,它将相关图像区域与每个标签关联起来。通过对所有标签的注意图进行可学习的卷积,SRN捕获标签之间的底层语义和空间关系,并为多标签分类提供空间规范化.
  本文的贡献如下:
   ∙ \bullet 提出了一种用于多标签图像分类的端到端深度神经网络,该网络利用标签的语义关系和空间关系,在标签的注意图上训练可学习的卷积。这种关系只能通过图像级的监督来学习。对所学模型的研究和可视化表明,我们的模型能够有效地捕捉标签的语义和空间关系
   ∙ \bullet 我们提出的算法具有很好的泛化能力,可以很好地处理不同类型标签的数据。我们综合评估了3个公开的数据集,NUS-WIDE(81个概念标签),MS-COCO(80个对象标签)和更大属性(14个人类属性标签),显示出我们的方法比最先进的方法有显著的改进

2、相关工作

  多标签分类在很多领域都有应用,如文档主题分类、音乐标注与检索、场景识别、基因功能分析。在本研究中,我们主要研究基于深度学习技术的多标签图像分类方法。
  将现有的单标签方法用于多标签的一个简单方法是为每个标签学习一个独立的分类器,近年来,深入学习特征对单标签图像分类的成功提高了多标签分类的准确率,基于这种深层特征,Gong等对各种损失函数进行了评估,发现加权近似排序损失最适合CNNs。
  还提出了学习捕获标签关系的方法。Read等通过训练一个二值分类器链扩展了二值相关性方法,其中每个分类器都根据图像特征和之前预测的标签进行预测,一种更常见的标签关系建模方法是使用概率图形模型,也有确定标签关系图结构的方法,近年来,深度神经网络也被用于学习标签关系,虽然通过学习标签的语义关系,分类准确率得到了很大的提高,但并没有探究标签之间潜在的空间关系。
  注意机制在许多视觉任务中被证明是有益的,如视觉跟踪,目标识别,图像标题,图像问题回答,分割,在使用空间相关标签训练深度网络时,空间注意机制自适应地聚焦于图像的相关区域,本文利用注意机制改进多标签图像分类,捕捉标签的底层空间关系,为最终分类结果提供空间正则化。

3.方法

  本文提出了一种用于多标记分类的深度神经网络,利用图像级的监督来学习多标记的空间正则化。我们的方法的总体框架如图2所示,主网络具有与ResNet-101相同的网络结构,所提出的空间正则化网络(SRN)以来自主网络的视觉特征作为输入,并学习如何规范标签之间的空间关系。这种关系是基于用于多标签的学习注意力图来获取的。来自主网和SRN的标签信任被聚合以生成最终的分类信任。整个网络是一个统一的框架,以端到端方式进行培训。

  图2表示方法的总体框架。(上):主网络遵循ResNet-101的结构,对每个标签学习一个独立的分类器。Res-2048表示一个具有2048个输出通道的ResNet构建块。(下)提出的SRN通过注意机制捕获标签的空间和语义关系。虚线表示注意力图的弱监督预训练。
  总结一下,首先输入了一张大小为 3 ∗ 224 ∗ 224 ( c h a n n e l , h e i g h t , w e i g h t ) 3*224*224(channel,height,weight) 3224224(channel,height,weight)的图片,然后经过 f c n n f_{cnn} fcnn层,也就是 r e s n e t resnet resnet中的残差前三层,输出了一个大小为 1024 ∗ 14 ∗ 14 1024*14*14 10241414 f e a t u r e feature feature m a p map map,然后同时输入到两个网络当中:
  1)扔到原始残差网络的第四层从而获取出大小为 2048 ∗ 7 ∗ 7 2048*7*7 204877 f e a t u r e feature feature m a p map map,通过平均池化与全连接(fc)层(上述整个过程称为 f c l s f_{cls} fcls层)从而获取最终的标签预测值 y ^ c l s \hat{y}_{cls} y^cls,大小为 [ b a t c h , C ] ( b a t c h 是 批 数 , C 是 标 签 的 个 数 ) [batch,C](batch是批数,C是标签的个数) [batch,C](batchC)
  2)仅仅通过网络进行预测是不够的,不能够让网络更加关注某一个标签对应的图像具体位置,因此采用 a t t e n t i o n attention attention机制,先将 f e a t u r e feature feature m a p map map通过一个 f a t t f_{att} fatt层(其中包含对每一个通道上 14 ∗ 14 14*14 1414维的矩阵进行 s o f t m a x softmax softmax归一化)获得一个大小为 14 ∗ 14 ∗ C 14*14*C 1414C的注意力图 A A A, A A A中的每一个通道分别对应了一个标签,且每一个通道上对应标签的位置的预测分数会很高,从而能够在输入图片的时候更好的去关注相对应的区域,这里输入的图片称为视觉向量,也就是图片原始的 f e a t u r e feature feature m a p map map,通过一个 c o n v 1 conv1 conv1层来获得了一个置信图 S S S,然后将注意力图 A A A和置信图 S S S进行点乘,这样若图像某个区域出现了某个标签,那么 A A A图中对应此标签的通道就会关注到此区域,点乘后的值就大就会高亮,然后将点乘完的矩阵进行每一个通道的加和,从而获得每一个标签的预测值 y ^ a t t \hat y_{att} y^att
  3)上述方法会存在问题,由于 A A A每个通道上的值的总和为1,那么标签 l l l对应的具体位置预测分数始终会很高,假设某一张图上并没有此标签,但是网络仍然会查找到对应的区域并且产生高亮(原因是置信图 S S S上并未有此标签,但是本身值比较高,所以点乘后还是会产生高的值),这样的话其实预测的就不准确,因此提出将置信图 S S S s i g m o i d sigmoid sigmoid归一化到[0,1],称为 U U U,当进行预测标签分数时,即使 A A A图对应此区域的分数高,但是 U U U图中并未有此标签,因此值很小,点乘后值就很小从而不会产生高亮,只有当 A A A图上的值大且 U U U图中的值也大时才能够产生高亮。也就是说

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值