论文信息:
博士论文-跨媒体语义共享子空间学习理论与方法研究-2015-北京交通大学-张磊
文末部分参考文献附有论文下载链接,包括与本论文相关的论文下载地址
论文标题:跨媒体语义共享子空间学习理论与方法研究
文献引用格式
张磊.跨媒体语义共享子空间学习理论与方法研究[D].导师赵耀.北京交通大学,2015.
张磊,赵耀,朱振峰.跨媒体语义共享子空间学习研究进展[J].计算机学报,2017,40(6):1394-1421.
第一篇的内容基本包括第二篇,本笔记主要介绍了第二篇内容。
论文摘要
跨媒体语义共享子空间学习理论与方法研究
本文从跨媒体对象的底层特征出发,对跨媒体共享子空间学习中的若干相关问题进行了研究。研究内容包括:跨媒体数据的一致性描述、子空间的增量学习、缺失模态补全等。本文主要的创新性研究成果包括:
(1)提出了一种挖掘跨媒体数据语义一致模式的通用框架。该框架首先使用一种全新的同构相关冗余变换算法构建不同模态间的高维同构空间,以此捕捉更多不同模态间的互补信息;并提出了一种基于相关性的联合特征学习模型,以提取特征同构描述之间共享的高层语义子空间。在此基础上所建立的跨媒体数据的一致性描述,在分类和检索性能上能够比现有的同类方法获得将近14%的增益。
(2)提出了一种适用于多标签图像分类的增量共享子空间学习方法。通过利用提出的增量无损矩阵分解算法,该方法能够增量地执行而无需使用原始已存在的数据,避免了提取共享子空间过程中的高计算复杂度,并且没有降低算法的分类性能。与其它非增量的共享子空间学习方法相比,该方法将计算时间降低了大约1个数量级且没有降低预测性能。
(3)提出了一种补全跨媒体数据缺失模态的通用框架。该框架首先使用一种全新的同构线性相关分析方法,将跨媒体数据线性地映射到一个特征同构空间,以此捕捉不同模态间的语义互补性和等同分布;同时,遵从鲁棒PCA的思想,为了完成缺失模态的补全,提出了一种等同分布约束模型,以充分利用基于等同分布约束的大边缘策略。在此基础上所恢复的跨媒体数据缺失模态的描述,在分类性能上能够比现有的同类方法获得将近20%的增益。
跨媒体语义共享子空间学习研究进展
随着信息技术的飞速发展,现实世界中涌现出大量的跨媒体数据. 所谓跨媒体数据是指那些表达的内容相似,但以不同模态、不同来源、不同背景等形式出现的数据. 比如,一张描述花豹的网页通常采用共生的图片和文本等不同的模态刻画花豹的外形和习性. 这些跨媒体数据通常呈现出底层特征异构、高层语义相关的特性. 传统的单媒体学习方法已无法适应跨媒体数据呈现出的特征异构性. 因此,跨媒体学习相关理论与方法的研究是当前数字媒体分析领域的热点研究课题之一. 该文主要介绍了跨媒体学习的研究背景和应用价值,概括介绍了各类跨媒体学习相关方法的数学原理和基本特性,并重点介绍了跨媒体共享子空间学习的研究进展,比较了基于投影、矩阵分解、任务和度量等四大类子空间学习方法的优缺点,分析了未来的发展方向.
跨媒体相关概念
跨模态
跨模态是指跨媒体数据通过图像、视频、文本等不同的模态表达某个概念或事件。例如,在跨媒体检索中,存在于同一网页中的共生的文本和图片携带了相似的语义信息。
近年来,跨媒体技术已被应用于跨媒体检索、跨媒体聚类和跨媒体分类等场合。
跨媒体检索
跨媒体检索指的是可以实现不同模态之间灵活跨越的多媒体检索方式,即通过一种模态的实例检索出与之相关的其它模态的样本.
跨媒体聚类
跨媒体聚类利用不同模态间样本的分布相似性,同时聚类多个模态以揭示不同模态间的潜在共享结构。
跨媒体分类
跨媒体分类是利用从多个模态中找出的事物共享特征构建分类器,从而对多媒体数据进行分类.
跨媒体分类方法利用已有的有标签跨媒体数据学习出一个性能优越的跨媒体分类器,然后使用这个学习出的分类器预测无标签跨媒体数据的类别.
文献[1]基于boosting方法在每个模态上学习一个弱分类器,并通过加权组合产生整合分类器。
跨媒体学习相关方法
协同训练
文献[2]中,Zhou和Li等人设计出一种采用3个分类器进行协同训练的Tri-training算法.不同于其它协同训练方法,该算法利用集成学习(Ensemble, EL)提高各个异模分类器的泛化能力(异模分类器的种类可以相同),同时对训练样本集也没有过于苛刻的要求.
多核学习
尽管核方法是解决非线性模式分析问题的一种有效方法,但是在多维数据存在不规则性,样本特征含有异构信息,数据在高维特征空间分布不平坦,或样本规模很大等情况下,采用单个简单核进行映射的方式对所有样本进行处理并不合理。因此,近年来出现了大量关于核组合(Kernel Combination,KL)方法的研究,即多核学习。
图1.7给出了多核学习的过程。在学习过程中,不是选择单一的核函数进行多核学习,而是选择一组核函数,组合不同的核。由于不同的核对应于来自不同模态的各种相似性概念,所以核组合可能是一种更好的整合多个信息源,寻找最优解的方式。
子空间学习
空间学习旨在获得多个模态间共享的潜在子空间,以捕捉不同模态间的互补信息。当前的子空间学习方法分为基于投影、矩阵分解、任务和度量等四大类。
共享子空间学习综述
基于投影的共享子空间学习方法
典型相关分析法
Rasiwasia等人[3]提出了一种基于CCA的跨媒体检索方法以获得不同模态之间的共享描述。Hardoon等人[4] 呈现了一种使用核CCA的通用方法以学习网页图片和相关文本之间的语义描述。此外,Chaudhuri等人[5] 提出了一种基于CCA的跨媒体聚类方法,将多个模态的数据投影到一个低维空间上。进一步,Sharma等人提出了一种通用的基于CCA的跨媒体特征提取方法用于跨媒体分类和检索.
偏最小二乘法
PLS是一种多因变量对多自变量的回归建模方法。特别是当各变量集合内
部存在较高程度的相关性时,用偏最小二乘法进行回归建模分析,对比逐个因变量进行多元回归更加有效,其结论更加可靠,整体性更强。
PLS在建模过程中集中了主成分分析,典型相关分析和线性回归分析方法的
特点于一身。因此在分析结果中,除了可以提供一个更为合理的回归模型外,还可以同时完成一些类似于主成分分析和典型相关分析的研究,提供更丰富、更深入的信息。
与CCA的区别:
CCA在嵌入空间最大化观测变量之间的相关性,而PLS最大化观测变量之间的协方差。此外,PLS与主成分分析法都试图提取出反映数据变异的最大信息,但主成分分析法只考虑一个自变量矩阵,而偏最小二乘法还有一个因变量矩阵,因此具有预测功能。
核典型相关分析法
KCCA[4]是CCA方法在核空间上的非线性推广。该方法是目前较为常用的基
于核方法的非线性主元提取方法,它通过隐式非线性地将数据投影到一个高维特
征空间,为CCA提供了一种可替代的解决方法。常用的核函数包括:线性核函数、q口阶多项式核函数、高斯径向基(RadialBasisFunction,RBF)核函数和多层感知器(Multi-Layered Perceptron,MLP)核函数。
近年来,KCCA作为CCA的一种非线性替代,得到了广泛的应用。Hardoon等人[4]提出了一种基于高斯分布核函数的KCCA方法学习网页图片和相关文本之间的语义描述,以实现基于内容的图像检索。Vinokourov 等人的研究表明线性核函数对于跨语言信息检索是非常有效的。另外,在学习算法上,线性核函数更加简单、快捷,所以在现实应用中通常采用线性核函数。
深度典型相关分析法
尽管KCCA能够学习高维非线性变换,但是也存在产生的非线性变换受选择
的核函数约束的缺陷。此外,KCCA还是一种非参数化的方法,所以它的计算复杂度的伸缩性很差。Andrew等人提出的DCCA[6] 方法通过深度网络可以灵活地学习两个相关模态之间的非线性变换。不同于KCCA,DCCA并不需要内积,从而为KCCA提供了一种非线性替代。此外,DCCA作为一种参数模型,无需参考训练集就可计算未知数据点的描述。但是,DCCA也存在学习过程中需要设置大量参数且学习时间长的缺陷。
基于矩阵分解的共享子空间学习方法
近年来,国内外的研究人员提出了一类基于矩阵分解的共享子空间学习方法,以提取不同模态间的共享子空间的基向量。如图2—3所示,此类方法将模态收和K对应的数据矩阵X和y分解为两个矩阵的乘积,其中W的列向量为不同模态间共享子空间的基向量,而P1和P2的列向量为原始数据在共享子空间中的坐标。目前该类方法大致可分为两类:一类是基于非负矩阵分解的[7]方法,另一类是基于特征分解的[8]方法。
基于任务的共享子空间学习方法
基于任务的共享子空间学习通过同时学习多个相关的任务,以提高各个任务的总体泛化性能。在学习过程中,每个任务通常拥有不同的训练样本,但是所有的任务共享相同的特征。到目前为止,基于任务的共享子空间学习方法涉及多任务学[9,10],多标签学习[11-13]和多类学习[14]三大类。这些方法在现实世界中都已经得到了广泛地应用。
基于度量的共享子空间学习方法
为不同模态的数据学习一个良好的度量,实现模态间的相似度对比,对包括跨媒体检索,聚类和分类这样的现实应用有着十分重要的意义。因此,研究人员另辟蹊径使用度量学习(Metric Learning,ML)[15]提取不同模态间的共享子空间。度量学习根据预先设定的邻域边缘,利用学习到的距离度量,将目标近邻拉入邻域边缘,并且将噪声点推出指定边缘,同时将同一数据的多模描述耦合到一起。从而提高描述 分类、聚类和检索性能,但是度量学习也存在计算代价高,无法度量异构描述的缺陷。现有的基于度量的子空间学习方法分为两大类:一类使用欧式距离[15]度量,另一类基于马式距离[15]度量。
参考文献
[1] Koco S, Capponi C. A boosting approach to multiview classification with cooperation[C]. european conference on machine learning, 2011: 209-228.
[2] Zhi-Hua Zhou,Ming Li.Tri-Training:Exploiting Unlabeled Data using Three Classifiers[J].IEEE Transactions on Knowledge and Data Engineering,2005,17(11)1529-1541.
[3] Nikhil Rasiwasia,Jose Costa Pemira,Emanuele Coviello,Gabriel Doyle,Gert R.G.Lanckriet,Roger Levy,Nuno Vasconcelos。A New Approach to Cross—Modal Multimedia Retrieval[C1.Proc.ACM.International Conference on Multimedia,2010,PP.251—260.
[4] David R.Hardoon,Sfindor SzedmLk,John Shawe-Taylor.Canonical CorrelationAnalysis:an Overview with Application to Learning Methods[J].Neural Computation,2004,16(12):2639—2664.
[5] Kamalika Chaudhuri,Sham M.Kakade,Karen Livescu,Karthik Sridharan.Multi—View Clustering via Canonical Correlation Analysis[C].Proc.ACM.International Conference on Machine Learning,2009,PP.129—136.
[6] Galen Andrew, Raman Arora, Jefr Bilmes, Karen Livescu. Deep Canonical Correlation Analysis[C].Proc.ACM.International Conference on Machine Learning,2013, pp. 1247—1255.
[7] Jing Gao,Jiawei Han,Jialu Liu,Chi Wang.Multi-View Clustering via Joint Nonnegative Matrix Factorization[C].SIAM International Conference on Data Mining,2013,PP.252.260.
[8] Gene H.Golub,Charles F.Van Loan.Matrix Computations[M].The Johns Hopkins University Press,1996
[9] Rie Kubota Ando,Tong Zhang.A Framework for Learning Predictive Structures from Multiple Tasks and Unlabeled Data[J].Journal of Machine Learning Research,2005,6:1817.1853.
[10] ndreas Argyriou,Theodoros Evgeniou,Massimiliano Ponti.Convex Multitask Feature Learning[J].Machine Learning,2008,73(3):243-272.
[11] Xiangnan Kong,Michael K.Ng,Zhi-Hua Zhou.Transductive Multi-Label Learning via Label Set Propagation[J].IEEE Trans.Knowledge and Data Eng. 2013,25(3):704—719
[12] Shuiwang Ji,Lei Tang,Shipeng Yu,Jieping Ye.Extracting Shared Subspace for MultiLabel Classification[C].ACM SIGKDD International Conference on Knowledge
Discovery and Data Mining,2008,PP.381-389.
[13] huiwang Ji,Lei Tang,Shipeng Yu,Jieping Ye.A Shared-Subspace Learning
Framework for Multi-Label Classification[J].ACM Transactions on Knowledge
Discovery from Data,2010,4(2):8.
[14] Yonatan Amit,Michael Fink,Nathan Srebro,Shimon Ullman.Uncovering Shared
Structures in Multiclass Classification[C].International Conference on Machine
Learning,2007, 24:17—24.
[15] Kilian Q.Weinberger,Lawrence K.Saul.Distance Metric Leaming for Large Margin Nearest Neighbor Classification[J].Journal of Machine Learning Research,2009, 10:207.244.
资源
关于跨媒体表示相关论文,包括本文