迁移学习与图形合作正规化

本文提出了一种名为图形联合正则迁移学习(GTL)的框架,旨在同时保持数据的统计特性和几何结构,以解决迁移学习中的有效性和负迁移问题。GTL通过集体矩阵分解和图合作正规化来提取和细化潜在因素,适用于文本和图像数据的分类任务。实验证明,GTL在多个公开数据集上表现出优越性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

摘要----迁移学习被确定为一种有效的技术,去充分利用丰富的数据标记为目标域建立一个准确的分类。这个基本假设是,输入域可以共享某些知识结构,它可以被编码成常见的潜在因素和保留原始数据的重要属性,例如,统计特性和几何结构。在本文中,我们表明,输入数据的不同性质可以是彼此互补的,并且同时探索它们可以使学习模型应用到不同的域中。我们提出了一个总体框架,称为图形联合正则迁移学习(GTL),其中,各个矩阵因子模型可以合并起来。特别是,GTL旨在为知识转移,通过维护跨域的统计特性来提取共同的潜在因素。同时,通过各个领域保持几何结构来细化潜在因子,从而减轻负迁移。根据该框架,我们分别提出NMF和NMTF两种新方法。大量的实验验证GTL可以在几个公开的文本和图像数据集中显著地超越国家的最先进的学习方法。

1、介绍

    大数据的数级增长趋势来源于多个领域,这已经微创新的方法创建了一个引人注目的需求分析去管理他们。但是,对于一些新兴的目标域,标签数据通常都非常稀疏,使得标准的监督学习算法不可行。另外,从头收集足够的标记数据是非常昂贵的。有人可能会想到在一些相关的源域利用丰富的数据标签来进行准确分类。然而,标准的监督学习算法不能有效地重用跨域标签的知识,因为它们所需要的测试数据是从同一分布中获取的。近日,迁移学习[2]算法越来越受关注。迁移学习已被证明是有前途的的应用,例如,文本分类[3],情感分析[4],图像分类[5],视频摘要[6],并协同过滤[7]等。

    迁移学习的一个主问题是如何探索共享知识结构的基础输入域,作为从源域到目标域进行传播监管信息的桥梁。最近的工作,集中在普通潜因子编码知识结构和通过保持原始数据的特定属性来提取它们:

1)保留的统计特性,即,最大限度地嵌入方差或尽量减少重构误差[3],[8]-[12];

2)保持的几何结构,即,用相似的说明编码相似的例子 [13] - [17]。特别是,这里的统计特性是指输入数据,例如,样本方差,或全球可变性[18]的描述性统计。几何结构是指嵌入歧管,其中支持输入数据的固有分布和看起来像一个low-dimensional Euclidean 空间[19]

    大多数现有迁移学习方法的主要限制是,它们不同时保留两者的统计属性和几何结构。在现实中,保留这些互补性属性对域之间不同的学习模型是重要的。在某些困难情况下,内在域结构不能有效地使用数据的一个属性来进行探索。在这种情况下,现有的方法可能遭受无效转移,即,欠拟合目标数据。在其他困难情况下,该域差异如此之大,则可能难以提取公因子来作为知识迁移的桥梁。在这种情况下,在现有的方法可能遭受负转移,即,过拟合目标数据。这些问题促使我们设计了一个框架,探讨两者的统计特性和几何结构和强大的迁移学习。

     对于无效的迁移问题,激发了朱等人。[18]统计和几何性质可能集中在原始数据的不同方面,并且在现实中彼此互补。如下所示。一方面,每个数据点可以与一些潜在因素有关。例如,一个文本文件可以被视为多个隐藏语义的组合。提取这些潜因素,保留原始数据[20]的统计特性。另一方面,从几何角度来说,数据点可以由一个低维流形嵌入到高维空间中[19]进行采样。保持这种涉及编码的类似的几何结构的例子或类似功能的嵌入。通过维护统计和几何性质,我们可以改善潜在因素的平滑度,并增强迁移学习成效。

     对于负迁移的问题,我们提出如下理由。当源域和目标域不同时,它是不可能在两个域中提取一些共同的潜在因子。如果我们提取一些“共同的”潜因素,那么它们可能会导致目标域中簇结构和源域识别结构之间的不一致。为了缓解这一问题,我们建议保持几何结构中的每个领域。

在本文中,我们提出了一个总体框架,简称为图合作正则迁移学习(GTL),实现更有效的和强大的迁移学习。尤其是,GTL旨在通过维护跨域的统计特性为知识转移提取一些共同的潜在因素。同时,通过各个领域中保持几何结构来细化潜在因素来缓解负迁移。GTL的主要假设如下:1)通过同时维护统计特性和几何性质,我们可以改善潜在因子的平滑度和提高有效迁移学习;2)通过维护各个领域的几何结构,特定领域的几何结构能够得到重视,这样来减轻负迁移。本文的主要工作总结如下:

l        为了应付来自不同领域的数据分布的巨大变化,GTL旨在同时保持统计特性和几何结构,在一个统一的框架。GTL的学习目标是加强有效迁移和缓解负迁移。如我们所知,GTL是第一个迁移学习的框架,同时也探讨了它的标准,以达到理想的学习目标。

l        许多现有的矩阵分解模型,如NMF[21]和半NMF[22],可以很容易地纳入GTL架构,以解决迁移学习的问题。该实施方式可以通过乘法更新规则进行优化。

l        根据GTL框架下,我们进一步提出了一种基于NMF[21]和(NMTF)两种新方法[23],这两种方法有效地执行了跨域的文本和图像分类任务。

l        文本(路透社-21578和20新闻组)和图像(PIE,USPS,MNIST,MSRC和VOC2007)验证GTL在实际生活中的应用成效。

    本文的其余部分安排如下。相关工作将在第2节回顾。在第3节中,我们提出了总体框架,实现使用NMF和NMTF两种学习算法,并分析其计算复杂度。在第4节,我们正式分析的新算法的收敛性。实验评估将在第5节。最后,我们的结论在本文第6节讨论

2、相关工作

    迁移学习建立是有效的,其中所述数据是从不同的资源和不同分布中所获得的。根据文献调查[2],大多数迁移学习方法大致可以分为两大类:例如重加权[24],[25]和特征提取。我们的做法属于特征提取类,大致可为三个子类别:函授学习,分布匹配,和保存数据财产。

    函授学习:众所周知的方法包括结构函授学习(SCL)[26]和光谱特征对齐(SFA)[4]。这些方法首先确定在非枢纽功能,对应通过模拟分析来确定经常出现在两个领域中的枢纽功能,并探讨通信的子空间学习。

    群匹配:众所周知的方法是最大平均差嵌入(MMDE)[27],转移成分分析(TCA)[15]和转移子空间学习(TSL)[28]。这些方法的目的是提取一个共享特征子空间,其中跨域中分布的差异可以通过最小预定距离的措施来减少。

   属性的维护:大多数的特征提取基于迁移学习方法。这些方法假定存在共同知识结构底层多个域,这可以被编码成普通潜在因子,并作为跨域的知识转移的桥梁。该潜因子可以保持输入数据,例如,通过统计特性的重要性质来提取[3],[8] - [12],[29],和几何结构[13] - [17]。

    统计特性的保存:保护统计特性可以减少到最大化经验似然,或尽量减少重构误差,模型参数,以适应输入数据的统计信息。Singh等人建议集体矩阵分解(CMF)。[30]和它的其三变种分解最近已被广泛应用于迁移学习中[3],[5],[9] - [12]。CMF同时因子分解多个矩阵的行数和同时执行一列之间的对应关系,并设置匹配的行和列的常见潜在因子。在这个过程中,常见的潜在因子是共享地作为知识迁移的桥梁。Wang等人[9]提出了标签传播(LP),将功能集群作为知识转移的桥梁。 Zhuang等人[3],[10]开发矩阵三分解基础的分类(MTrick),共享功能,集群和实例类之间的关联进行知识迁移。从本质上讲,所有的CMF为基础的方法是通过最大限度地跨多个域[30]的经验似然做出来的。它们仅探索数据的统计特性,并可能遭受复杂的欠拟合时数据结构。从这些不同的方法,我们GTL同时探索两者的统计特性和几何结构进而发现域之间更多的连接,并建立更好的桥梁。

    保存几何性质:可通过探索局部不变性假设来保护几何结构[19],即,类似的例子或类似功能的嵌入。最近,一些为转移学习探索几何结构的方法已被提出。这些方法的目的是在内域和外域几何结构之间使用频谱学习最大限度地保持一致。但这违背了CMF为基础的方法,这些方法只注重几何结构,不探讨统计特性。不同于这些方法,我们的GTL探索既具有实例和功能空间背后的几何结构,同时,它探讨跨领域的统计特性。因此,我们可以采取两套方法的优势,建立强大的迁移学习。

3、图合作正规化转移学习框架

    在本节中,我们首先为迁移学习定义问题和学习目标。然后,我们提出我们的图表合作正则迁移学习(GTL)的框架。根据该框架,我们提出分别用NMF和NMTF这两种新方法。最后,我们将分析计算复杂性。

  3.1问题定义

    我们专注于直推式迁移学习:丰富的标签数据可在源域中使用和在目标域中只有未标记的数据可用。我们在一个源和一个目标域中研究多类分类,这可以扩展到多个域中。

记Dπ的πth域,其中是域的索引。为了区分不同类型的域,我们分区成源域指数和目标域指数,即 。这些域共享相同的特征空间X和标签空间Y,分别用| X |= m属性,和|Y|=c标签。记是域Dπ的特性,其中是域Dπ中的第i个例子。记源域Dπ的标签矩阵,其中,如果分配到j级,并。经常使用的符号总结在表1中。

    问题1(学习目标)。鉴于域,学习一多级分类f :X _→ Y在目标域中具有低误码率。通过同时1)保持跨域促进知识转移的统计特性,和2)在各个领域保持几何结构,以缓解负迁移。

    在本文中,我们提出了一个总体框架,被称为图形合作正则迁移学习(GTL),以达到学习目标。在GTL,我们采用正规化矩阵分解技术。我们假设输入域可以共享一些共同的潜在因素。我们提取由集体矩阵分解的因素,从而可以保持跨域输入数据的统计特性的共同因素。同时,我们通过graph co-regularization来完善潜在因素,其可以维护在每个域中所述输入数据的几何属性。以这种方式,在学习模型由不同的域中更加稳固。我们提出的理由有两个:1)如果统计和几何性质是一致的对面域,它们可以加强学习对方,以加强知识转移;2)否则,内在域的几何属性将主导学习各个领域内的任务,以缓解负迁移。

  3.2、总体框架

    一般的GTL框架为一个统一的优化问题集成了两个学习目标:集体矩阵分解和图形合作正规化。

  3.2.1集体矩阵分解

   首先,我们通过集体矩阵分解[30]来提取潜在因子,通过域之间数据分布可以得出接近值。我们的目标是保持数据的跨域的统计特性。

   集体矩阵分解:在各个领域Dπ中的潜因素可以通过非负矩阵分解(NMF)模型[21],[22]中提取。在NMF中,例如矩阵Xπ分解成两个低秩非负矩阵Uπ和Vπ,使得矩阵Xπ的重建误差被最小化和输入数据的统计特性被保留。NMF相当于下面的优化问题:

  

   其中h是预测链路和L是损耗函数。是功能集群矩阵,每个代表一个功能集群;和是示例类矩阵,每个代表一个示例类。直观上,Uπ和Vπ分别是共同聚类结果Xπ上的特征和实施例。据丁等人认为[20],NMF模型是等同于最大化输入数据的经验似然。

   鉴于多个域具有内在的相关性,我们可以通过标记源域并利用监管信息和分类未标记目标域提高分类准确度和通过分享这些领域背后的共同因素提高分类准确度。这是迁移学习的性质。Singh等人[30]扩展基本MF,同时因式分解多个相关矩阵,从而导致集体矩阵分解(CMF)

    其中,CU和CV在矩阵Uπ和Vπ有适当的约束(如非负性,正交)。CMF的关键思想是多个矩阵共享共同因素。在文献中,特征簇通常跨多个域共享,以促进迁移学习[8],[9],[31],即。通过这种方式,我们可以通过保存的数据的统计特性提取知识迁移的常见因素。

     集体矩阵三分解:类似地,潜在因子也可以通过NMTF模型[23]萃取。在NMTF中,例如矩阵Xπ分解成三个低级别非负矩阵Uπ,Hπ和Vπ。

  

为功能集群Uπ和示例类Vπ之间的关联和可以给Xπ的一个浓缩视图。类似于CMF,我们扩展基本NMTF,同时因式分解多个相关矩阵,这导致(CMTF)如下:

    通过CMTF,该功能集群通常跨域共享,促进迁移学习[9],[29],即类似地,关联也可跨域共享,以促进稳定迁移学习[3],[10],即。我们同时为迁移的学习研究CMF和CMTF两种方法。

   3.2.2Graph Co-Regularization

    其次,我们由Graph Co-Regularization细化潜在因素,通过在各个领域的数据分布可以得到应用。我们的目标是在各个领域中保持数据的内在几何特性。

实例图形正规化:从几何角度来说,数据点可以由一个低维流形嵌入到高维空间[19],[32]支撑的分布进行采样。这种保留几何结构,可以使学习模型仔细尊从特定领域的数据分布和大大减轻负迁移问题。在本地不变性假设[33]中,如果两个例子是接近底层域Dπ数据分配的固有的几何形状,然后其嵌入的也应接近。几何结构所涉及的分散的数据点[19]可以由p近邻图形有效地编码。考虑示例图的顶点分别代表域Dπ一个数据点。的定义的基质就像如下公式:

其中sim(·, ·)是一个正确的相似函数。

回想一下,实例的低维嵌入是从CMF的提取出来的。我们使用损失函数测量每对嵌入的亲近值,即之间的接近程度。根据Cai等人【19],保存在域Dπ的几何结构相对于图表由以下图形正规化实现。

   特征图正规化:在考虑功能和例子之间的双重性,功能也从另一个低维流形支持的分布中取样[34]。由本地不变性假设[33],如果两个属性有接近底层域Dπ数据分布的固有几何,那么他们的嵌入应该也是接近的。就像示例图一样,考虑一个带有m个顶点的属性图,每一个点在域中代表了一个属性,并且如下式中定义的一样:

其中sim(·, ·)是一个正确的似然函数。

   属性的低维嵌入,是由CNF来提取的。相似与图正规化,在域

Dπ中保留几何结构,那图的实现就如下所示:

   我们指的是在方程的曲线正则项(6)和(8)作为graph co-regularization,因为它们在实例中同时保留了几何结构和属性。我们会用它们来细化潜在因素从而缓解负迁移。

  3.2.3优化框架

    为了进一步推动跨域分类的性能,这两个学习目标应该一并审议。原因是:1)有了集体矩阵分解,通过该知识可在域之间传送实现共同潜在因子提取;2)有了曲线共同正规化,在各个领域的几何结构被维护下来,为了负迁移可以大大缓解。此外,集体矩阵分解和图形共同正规化可以同时享受内在的相互强化学习:1)对于所有实例和特征的子空间来说,集体矩阵分解可以用统计学嵌入进行提取,和2)图形协正规化可以丰富子空间识别的几何结构,更好的分类性能。因此,我们应该集成这两个学习目标并统一的纳入GTL优化框架。

其中λ是特征曲线正则化参数,并且γ是示例图表正则化参数。我们通过将他们合并在优化框架内 。为了便于迁移学习,我们按照[8],[30],[31]和共享特征簇跨域,即,通过监督信息可从源域到目标域进行传播。

同样,GTL框架还可以通过使用(CMTF)配制。

     为了便于迁移学习,我们通过域 [3]之间共享的关联[10],即。用优化的结果,标签,目标域中Dπ里的例子通过下面的公式进行预测,

 

该GTL框架配制成一般情况下,我们在其中可以选择各种预测环节时,损失函数,相似功能的sim,限制CU和CV。广泛采用的选项如下:

l        H可作为恒等函数或逻辑函数。也就是。

l        可以是平方损失的综合或矩阵的差异,也就是

l        可以是Euclidian距离或者是一般的KL-divergence [19],也就是

l        Sim可以是余弦相似或者是热核加权【19】,即,,其中β是热内核的带宽参数。

l        Cu和Cv可以是非负约束(NMF),正交约束(SVD),概率约束(PLSA),或者稀疏约束。

    根据具体的应用中,我们可以选择最适当的配置,以达到最佳的性能。

    3.3学习算法

    我们用正确的扩展标准算法NMF[21]和NMTF[23],对GTL框架使用正确的配置,也就是说。我们进一步为CV使用近似正交约束,即其中ε是小的非负常数。 GTL将使用正交约束解决问题。

     3.3.1 GTL使用NMF

     使用非负矩阵分解(NMF)[21]作为基础模型,在(9)还原为GTL2框架。

     其中σ是收缩正则化参数; 是图Laplace矩阵,被计算为;和是带有每个项的对角矩阵。基于收缩的方法,我们可以为近似地满足正交约束防止第二项过于庞大。由于拉格朗日乘数法,给定任意ε,有一个适当的使是合理的。

   备注上做文章解决方案问题:要注意,这是很重要的,现有的图正规化​​NMF方法[19],[32],[34]可能有平凡解的问题[35]:当γ→∞,用等式12可以表示。

   等式(13)被分解成独立子问题:。每个子问题得到对于一个规模来说的相同的解决方法,即因此,由Vπ分发的任务趋向于向一个类别分配所有的例子。 Gu等人[35]强加于Vπ的标准化切割风格的约束,然后用拉格朗日乘法解决了一个约束的优化问题。但是,这种方法存在不稳定的收敛性能。通过满足与收缩方法的正交性约束,GTL可以完全解决这个平凡解的问题,并能获得稳定的收敛性能。因为显然,我们没有必要为Cu施加正交约束。

在等式(12)的最优化问题可以通过交替优化过程来解决,如下面的定理说明。定理的详细的理论分析,提出在第4节。

算法1:更新通过公式(14)(15)的顺序将在公式(12)中单调减少目标函数直到收敛。

     整个学习过程中总结在算法1中,域标记的来源,所以我们维持整个迭代。由于优化涉及迭代更新规则。该程序可能会停留在最差的局部最优解。因此,我们初始化目标域的类。

     3.3.2 GTL使用NMTF

     使用(NMTF)[23]作为基本模型,框架(10)被还原成GTL3。

     在等式(16)中的问题也可以通过交替优化过程解决,如以下定理说明。理论分析相似,因此NMF版本被省略。完整的学习过程总结在算法2中。

定理2.更新H依次由式(1719)排列,这将单调减少的目标函数,直至收敛

GTL2与GTL3的备注:首先,GTL2是在“over-transfer”中结束的。功能集群,有大量的参数并且可以编码足够的知识结构来进行传输。但是,它可能会遭受负迁移,即过度迁移的知识可能与目标域簇结构高度不一致。在这种情况下,图合作正规化能保持目标的几何结构,以打击负迁移。

 相反地,GTL3是在“under-transfer”结束。他共享了关联群,它具有少量的参数,并有能力在不同的域中执行。但是,它可能遭受无效转移,即没有足够的知识,可以在域之间传送,以改善目标的任务。在这种情况下,图合作正规化则可以方便的输入数据的不同属性和他们之间的强化学习,以提高有效的传输。

3.4计算复杂性

计算成本由三部分组成如下:计算乘法更新规则构建近邻图;为其他的用途。总之,在整体计算复杂度为,可以大大降低的稀疏的数据。4理论分析

4.1优化推导

我们得出的解决方案,公式(12)中使用了约束优化理论来优化问题。具体而言,我们将优化一个变量并计算其更新规则,而固定变量的其余部分。如此反复,直到收敛。

让和分别是拉格朗日乘子的非负约束U≥0和Vπ≥0,∀π∈。拉格朗日函数设置为L WRT U和Vπ的偏导数是

使用Karush - 库恩 - 塔克(KKT)互补性条件我们可以得到

这些在等式(1415)中引到更新规则。

4.2收敛性分析

我们使用辅助功能的方法[19],[21]来分析定理1。为了清楚起见,我们将只证明目标函数O2在公式(12)中是根据更新规则呈现非增长趋势。其他更新规则的收敛性同样可以证明。首先,我们介绍辅助函数的定义。

定义1.如果给定的任何满足这个条件,那么对于F(z)是一个辅助函数。

引理1.如果A对于F是一个辅助函数,那么F更新下是非增的。

 

证明.

在这个续集中,我们将证明等式(15),正是在引理1的更新规则下使用了适当的辅助函数。对于Vπ里的任何元素Vij,我们使用Fij表示O2的部分,它是唯一的与Vij相关的元素。Fij关于Vij相应的第一阶和第二阶导数,可以计算成:

引理2.函数

对于FijV)来说是一个适当的辅助函数。

证明.直接地A(v, v) = Fij (v),因此,我们只需要验证为了实现这个等式,我们用泰勒公式将Fij进行展开

由于正交通过代数操作,我们有三个不等式:

通过集中的比较这三个不等式,我们得出和引理2成立。

定理1的证明。基于引理1和引理2,对于Vπ来说更新原则可以通过最小化而获得

我们得出

这个更新规则与公式(15)是一致的。用于更新的每次迭代,我们有

因此,O2(Vπ )迭代过程是单调递减的。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值