深度多标签论文阅读(二)

对阅读的十八篇深度多标签论文进行简要叙述。
七、 2017-ICCV-Multi-label Image Recognition by Recurrently Discovering Attentional Regions
本文和上一篇文章十分相似,差别在于那个中间层,上一篇文章是用大量Caption/labels提供给中间层,让CNN输出的feature更加有semantic meaning,而本文的中间层是一个spatial transformer(ST),确切的说,是一个矩阵,用于提取图像中的attention region,而这个ST是可训练的,通过不断训练,提取的位置越来越精确,而用不同的ST处理不同的区域,
在这里插入图片描述
在这里插入图片描述左图关于ST。
对于LOSS部分同样也是分为两大部分,第一部分来自CNN,第二部分就是RNN(LSTM),而LSTM部分的LOSS比较讲究,用了三个约束,也就是由三个不同的LOSS构成,分别是
Anchor constraint ,Scale constraint,Positive constraint,将这三部分加权合并构成LSTM部分的loss,分别解决attention region的冗余问题,对小目标的忽略问题和空间翻转问题。
八、 2018-MTAP-Improving multi-label classification using scene cues
本篇文章用两个CNN网络进行多标签分类处理,没有用到RNN,第一个object-CNN用Imagenet进行预训练,为了提取分类目标特征,第二个Scene-CNN用一个Place 205数据集进行预训练,此数据集中含有丰富的场景信息,因此可以将场景信息融入到多标签分类中,更有利于分类的准确性。最后用一个新提出的MCE-LOSS将两部分进行综合。但是我觉得本文章还是采用了将多标签问题转化为多个二分类问题进行解决,并不会非常有效。
在这里插入图片描述
相关工作中提到了一些关于运用global image-level information和local region information的文章,也就是前几篇文章提到的,而本篇文章从另一个角度,运用Scene information并且相比于之前一些Scene information 的文章,本文的Scene CNN是用带有丰富Scene 信息的数据集训练过的。
九、 2018-TMM-Multilabel Image Classification With Regional Latent Semantic Dependencies
本篇文章提出了一种region based features + RNN的思路,相比于之前的CNN-RNN,CNN部分用于处理整个图像,本篇文章先用CNN提取图像特征,之后通过一个RPN-like (Regional
Proposal Network) localization layer,提取出不同位置的特征信息,再通过LSTM得到不同标签特征信息之间的依赖关系,最后通过最大池化层将预测信息进行综合。用文章的话说,captures the
latent semantic dependencies at the regional level, 在区域的层面上捕捉潜在空间的语义依赖关系。
在这里插入图片描述
相关工作中讲了一些关于最开始提取多标签图像特征的传统方法,之后到CNN提取,还有一些之前提取潜在语义空间的方法,比如Canonical correlation analysis (CCA) ,kernel canonical correlation analysis (KCCA)等,但是忽略了潜在语义空间标签之间的依赖关系,之后再到为了解决标签之间依赖关系提出的probabilistic graphical models的相关文章,但是标签之间依赖关系越复杂,计算量会激增缺点,之后RNN被提出,应用广泛,CNN-RNN应用,再到本篇文章的regional latent semantic dependencies model:extract image regions with abundant semantic information and explore the latent semantic dependencies simultaneously
模型方面,首先Localizing Multi-Label Regions部分,先是一个CNN提取特征,之后Fully Convolutional Localization Layer这一部分比较复杂,没有太看懂,但是分隔bounding box的步骤是在这部分,和以前bounding box分割方法不同的是,本篇文章分隔的box中,有的含有不止一个标签内容,这样在之后的LSTM处理中便可以体现region level semantic dependencies,本层输出的是全连接层将每个regional output进行flat后的结果,输入到之后的LSTM中,之后的池化层对噪声的屏蔽和结合输出也至关重要。
在这里插入图片描述
十、 2019-CVPR-Learning a Deep ConvNet for Multi-label Classification with Partial Labels
本篇文章处理的是多标签问题中的标签不全的情况(Partial Labels),过程分为三大块:
1. 提出一个新的loss去学习部分标签的结果,主要思想还是二进制交叉熵,来构建CNN模型。
2. 用一个Graph Neural Network(GNN)扩展学习好的CNN模型,让模型中体现标签之间的关系
3. 扩展的CNN 用一个curriculum-based approach.去预测丢失的标签
相关工作中提到了,部分标签/丢失标签问题的一些解决思路,还有Curriculum Learning / Never-Ending Learning,即本篇文章处理方法的最后一步用到的方法
下面对三大块进行详细说明:

  1. 新的LOSS使用Binary cross-entropy,但是相比于传统BCE bp时梯度会很小,文章对loss的normalize部分进行了稍微的改进。
  2. GNN图神经网络部分沿用之前提出的框架进行了详细说明。
  3. 最后预测部分采用Curriculum labeling,算法步骤如下:
    在这里插入图片描述
    其中的easy/weak missing label指的是那些缺失的并且很容易预测到的标签。其中“容易”程度的刻画,文章用了5种不同的衡量选择方法,Score threshold strategy Score proportion strategy等。
    实验中旨在解决基于三大块步骤三个问题:
  4. 什么才是最好的标签一个数据集的方法?部分标记(最后选择)/半完全标记(半监督中使用)/加噪声标记
  5. 学习部分标签过程中最好的方法是什么?BCE/ partial-BCE(最后选择)
  6. 预测标签部分,什么才是最好的方法?上述“容易程度”的不同衡量选择方法选择(最后选择了bayesian uncertainty)
    十一、 2019-A BASELINE FOR MULTI-LABEL IMAGE CLASSIFICATION USING AN ENSEMBLE OF
    本篇文章思路比较简单,主要提出了以下三个创新点
  7. 在多标签分类中,应对不同的输入图像大小预处理方法(裁剪,图像增强(mixup)),之前好像没有把mixup用于多标签的。
  8. 对不同模型互补性衡量方法上提出了自己的观点,其实就是测试时对不同得分进行权衡,最后的模型得分是在不同场景中综合的得分情况。
  9. 最后做了一些现有的模型评估的实验,作为一个多标签分类指标评判的baseline。
    在这里插入图片描述
    十二、 2019-CVPR-Multi-Label Image Recognition with Graph Convolutional Networks
    本篇文章的贡献度感觉还是蛮大,提出了一个新的解决多标签问题的整体框架。如图所示,整体模型的上半部分,用一个CNN提取图像特征,之后用一个global max pooling将特征进行压缩,下半部分为主体部分,为了学习到不同类的分类特征,GCN(Graph Convolutional Networks)先用图像标签的d维的word embedding作为输入,之后通过多个GC层,最后输出D维的图像标签表示分类器,而其中的关键点是在nodes更新过程中的correlation matrix.,作为分类器参数的更新矩阵,暗含了标签之间的依赖关系,并且其中各标签之间的参数是共享的,因此暗含了标签依赖的关系。而本文中在构建correlation matrix.时并没有采用预训练好的矩阵,因为目前还没有比较标准的多标签相关性矩阵,文章采用了一种数据驱动型方法挖掘dataset中的标签相关性。并且提出了一种re-weight的方法解决了过拟合和过平滑的问题。
    在这里插入图片描述
    相关工作中提到了解决多标签问题的方法,independent binary classifiers(无标签依赖性,计算量大),ranking-based learning strategy训练CNN,还有RNN,attention mechanisms,spatial
    regularization network,spatial transformer layer and long short-term memory (LSTM)等都不同程度的解决了标签依赖性问题。然后说明了图方法在多标签的有效性,提出了先前一些图方法解决标签依赖性问题,之后提出本文的GCN。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值