低秩在线度量学习:原理、算法与实验验证
在机器学习领域,相似性度量是一个基础且关键的问题。传统的场景识别方法大多聚焦于批量训练的监督学习,但这类方法在处理在线数据或大规模数据集时存在局限性。近年来,在线算法因其能逐例学习的特性受到广泛关注。本文将详细介绍一种基于低秩约束的在线度量学习模型,探讨其原理、算法流程,并通过实验验证其有效性。
1. 在线学习方法概述
传统场景识别方法在相似性度量方面主要采用批量训练的监督学习,但无法处理在线数据,且在数据集规模过大时易失效。在线算法则能逐例学习,过去十年受到了大量关注。例如,Cauwenberghs等人提出了处理大规模数据训练支持向量机(SVM)的解决方案;Utgoff等人引入了可利用新数据实例更新和再训练的增量决策树分类器。此外,还有许多将流行的AdaBoost算法扩展到在线场景的方法,以及众多在线学习在工业应用中的实例,如设计在线图像分类器用于工业表面检测、构建在线机器视觉系统用于钣金成型过程中的异常检测等。
在相似性度量学习方面,有多种方法被提出。大间隔最近邻方法(LMNN)用于学习马氏距离,使给定样本的k近邻属于同一类,同时以大间隔分离不同类样本;LEGO通过每实例损失的对数行列式正则化在线学习马氏距离,保证得到半正定矩阵;度量学习通过合并类(MCML)将同类样本映射到同一点,将其表述为凸问题;Chechik等人设计的可扩展图像相似性在线学习算法(OASIS)能快速学习成对相似性,且计算复杂度与对象数量和非零特征数量呈线性关系。然而,OASIS可能存在过拟合问题,因此本文引入低秩约束来克服这一问题,并定义了新的在线度量学习模型。
2. 自然数据中的低秩特性
为了探究真实视觉数据中是否广泛
超级会员免费看
订阅专栏 解锁全文

14

被折叠的 条评论
为什么被折叠?



