弱标签(一):Learning from Semi-Supervised Weak-Label Data 从半监督的弱标签数据中学习
最近需要学习一些 w e a k − l a b e l weak-label weak−label的知识,因此打算看几篇论文并记录一下:
摘要
多标签学习同时处理与多个标签相关联的数据对象。以前的研究通常假设,对于每个实例,都给出了与每个训练实例相关联的完整的相关标签集,然而,在许多应用程序(如图像注释)中,通常很难为每个实例获取完整的标签集,有的时候甚至只能获得部分或甚至空的相关标签集(因为图像标注实在是太麻烦了)。我们把这种问题称为“半监督弱标签学习”问题。在这项工作中,我们提出了SSWL( S e m i − S u p e r v i s e d W e a k − L a b e l Semi-Supervised Weak-Label Semi−SupervisedWeak−Label,即半监督弱标签)方法来解决这个问题。我们同时考虑了实例相似度和标签相似度来补充缺失标签。利用多模型的集成,提高了标签信息不足时的鲁棒性。我们用一个有效的块坐标下降算法将目标表示为一个双凸优化问题。实验验证了SSWL的有效性。
介绍
传统的监督学习通常假设每一个实例都与唯一的一个标签相关联,然而在许多实际任务中,一个实例通常拥有多个标签,例如,在文本分类中,若对文档进行分类,奥运会同时属于商业和体育;在图像注释中,巴黎场景中的图像同时与塔和天空联系在一起。传统的基于单实例单标签的监督学习已经超出了它处理这个问题的能力,而处理与一组标签相关的实例的多标签学习(Zhang和Zhou 2014)已经受到了很多关注。
在以往的多标签研究中,训练数据的基本假设是每个训练实例的所有相关标签都是已知的,然而,在许多应用中,这种假设很难成立,因为很难获得所有相关的标签,而且通常只能观察到部分甚至是空的标签集。例如,假设一个训练图像与概念汽车、道路、人类和建筑物相关,在实际情况中,用户可能只对小车、道路进行标签化训练,而忽略了对人、建筑物的标签化。更糟糕的是由于资源有限,用户可能没有选择训练凸显进行标注,因此观察到的图像相关的标签甚至是一个空集
由于弱标签学习和半监督多标签学习都不能很好地解决这一问题。例如,弱标记学习忽略了许多可能非常有用的未标记实例的使用;半监督多标签学习假设所有相关标签都可用于已标记的实例,但在我们的情况下并非如此。注意,本文的数据场景研究与以往的多标签研究有很大的不同。我们把这种多标记问题称为半监督弱标记学习。我们在图1中演示了本文的学习场景与以前的多标签学习框架之间的区别。

本文研究了半监督弱标签学习问题,提出了半监督弱标签学习方法
(Semi-Supervised Weak-Label)方法,基本假设是,实例和标签的相似性都有助于弥补缺失的标签,此外,当标签信息不足时,多个模型的集成通常比单个模型表现出更强的鲁棒性,具体来说,我们首先构建一个基于平滑度假设的正则化术语,即相似实例的标签集合中应该有相似的概念组合(就比如,一张图是山水图,那么标签值为山和水,若另一个实例与此图相似,则可以判断标签值为山和水的概率很大),这就要求最终的预测同时与实例的平滑度和标签的相似度相一致。我们分别为标记实例和未标记实例构建模型,通过斜正则化(co-regularization)框架利用不同的模型,我们提出了一个双凸公式,并提供了一个有效的块坐标下降的解决方案。实验验证了该方法的有效性。
相关工作
弱标签学习研究线是在过去几年提出的。Sun等人(2010)提出了基于实例相似性由一组低秩相似矩阵确定的假设的WELL方法。Bucak等人(2011)提出了MLRGL方法,该方法使用群lasso来调节训练错误。近年来,许多学习方法都试图克服弱标签问题。例如,基于标签共现的方法(Wu, Jin, and Jain 2013;Zhu, Yan, and Ma 2010),稀疏重建(Lin et al. 2013),低秩矩阵完成(Xu, Jin, and Zhou 2013)等。弱标签问题也出现在其他学习场景中,如多实例多标签学习(Yang, Jiang, and Zhou 2013)。然而,弱标记学习方法并不能很好地处理半监督的弱标记数据,因为它们忽略了对大量已知非常有用的未标记实例的利用。
半监督多标签学习可分为两类。一种是转换性多标签学习,假设测试实例来自未标记的实例,Liu等人(2006)假设标签空间中的相似性与特征空间中的相似性密切相关,从而利用特征空间中的相似性来指导缺失标签赋值的学习,从而得到约束的非负矩阵因子分解优化;另一种是纯半监督多标签学习,可以对任何不可见的实例进行多标签预测,赵等人(2015)将多标签关联与多标签预测相结合,以互惠的方式提高多标签预测性能,詹等人(2017)提出了一种归纳式协同训练风格方法来解决这一问题。他们通过对特征空间进行二分化和多样性最大化来处理多标签数据,生成了两种分类模型,然后对未标记数据进行两两排序预测,并通过迭代的方式进行交流以进行模型细化。然而,尽管半监督多标签学习考虑了相关标签的不完全性,但它仍然假设有完整的相关标签可用于已标记的实例,而这种假设不适用于半监督弱标签数据。
提出的方法
问题的陈述与符号
在原始的监督多标签设置中,我们得到一个训练数据集 { ( x i , y i ) } i = 1 m \{(x_{i},y_{i})\}_{i=1}^{m} { (xi,yi)}i=1m,一共有 m m m个实例。其中实例 x i x_{i} xi表示一个 d d d维实值向量,标签 y i y_{i} yi表示一个 n n n维二进制的标签向量,为1时则表示该实例属于与维相对应的概念,反之则为- 1。也就是当 y i = 1 y_{i}=1 yi=1时,则此标签 y i y_{i} yi与此实例 x i x_{i} xi相关联。所有标签都由标签空间组成 y 1 = { 1 , − 1 } n y^1=\{1,-1\}^{n} y1={ 1,−1}n,换句话说,我们有一个示例矩阵 X = [ x 1 , x 2 , . . . , x m ] ′ X=[x_{1},x_{2},...,x_{m}]^{'} X=[x1,x2,...,xm]′,对于这个矩阵来说,每一行都对应一个示例,和一个全标签矩阵 Y ϵ { 1 , − 1 } m × n Y\epsilon _{}^{}\{1,-1\}^{m\times n} Yϵ{ 1,−1}m×n,则有 m m m行 n n n列,行数为实例的个数,列数为标签的个数,在这个矩阵中, Y i j = 1 Y_{ij=1} Yij=1表示第 i i i个实例拥有第 j j j个标签, Y i j = − 1 Y_{ij=-1} Yij=−1表示第 i i i个实例没有第 j j