Deep Covariance Alignment for Domain Adaptive Remote Sensing Image Segmentation域自适应遥感图像分割中的深度协方差对齐
0.摘要
无监督域自适应(UDA)图像分割近年来受到越来越多的关注,其目的是提高从源域到目标域的知识传递的泛化能力。然而,在高空间分辨率遥感图像(RSI)中,来自不同领域(如城市和农村)的同一类别可能看起来完全不同,分布极不一致,这严重限制了UDA的精度。为了解决这个问题,在本文中,我们提出了一种新的深度协方差对齐(DCA)模型,用于UDA RSI分割。DCA可以显式地对齐类别特征,学习共享域不变的判别特征表示,从而增强模型泛化能力。具体来说,类别特征池(CFP)模块首先用于通过组合粗输出和深度特征来提取类别特征。然后,我们利用一种新的协方差正则化(CR)来加强类别内特征的更紧密性和类别间特征的进一步分离。与现有的类别对齐方法相比,我们的CR旨在正则化特征的不同维度之间的相关性,从而在处理不平衡和不一致分布的不同类别特征时表现得更加稳健。最后,我们提出了一种分阶段训练DCA的方法,以减少误差积累。在LoveDA数据集的农村到城市和城市到农村场景上的实验表明,我们提出的DCA方法优于其他最先进的UDA分割方法。
1.概述
遥感图像(RSI)分割旨在为每个图像像素分配相应的像素级土地覆盖类型,这在许多应用中发挥着越来越重要的作用[1]–[4]。然而,对标记训练样本的大量需求以及不同地理区域(如城市和农村)的不同风格严重限制了RSI细分的发展。针对数据缺乏和差异的一种常见解决方案是无监督领域自适应(unsupervised domain adaptive,UDA),其目标是提高不同领域的模型可推广性。UDA的目的是将从标记的源域训练的模型调整到未标记的目标域,从而缓解RSI分割任务中注释训练样本的不足
最近,随着基于深度卷积神经网络(CNN)[12],[13]的语义分割方法[5]-[11]的成功,UDA分割得到了迅速发展。在UDA语义分割中,最近的工作通常可分为两组,即对抗性训练(AT)方法[14]–[17]和自我训练(ST)方法[18]–[20]。A-T方法采用特征提取器来捕获域不变特征,并执行鉴别器来区分它们。Tsai等人[14]构建了一个多级对抗网络(AdapteSeg),以便在不同的功能级别上有效地执行输出空域自适应。Luo等人[15]设计了一个类别级对抗网络(CLAN),以进行更精细的级别域校准。Wang等人[16]提出了一个细粒度的对抗性学习框架(FADA),以协调共享功能。[17]中进一步提出了一种可转移归一化(TransNorm)方法,以改善UDA中的可转移性。然而,这些方法几乎都是基于AT的生成性对抗网络(GAN)[21],这很难训练。
此外,ST方法在UDA分割任务中也得到了广泛的应用,该任务涉及到在源域训练的模型对目标域产生伪标签,最后对模型进行微调。通常,Lian et al.[18]提出了跨领域适应金字塔课程(PyCDA),为UDA构建自我激励的金字塔课程。Zou等[19]进一步提出了类平衡自训练(CBST)策略,避免大类在伪标签生成中逐渐占据主导地位,并引入空间先验对生成的伪标签进行提炼。在[20]中提出了一种实例自适应训练(IAST)方法来选择平衡样本。ST方法总是以一种从粗到细的方式工作,通常用一种分阶段的机制进行训练。
以前的UDA方法也被应用于RSI分割任务[22]-[26]。大多数方法的目的是通过GAN[21]进行光度对准,这可以归为AT方法。尽管这些方法取得了一些有希望的结果,实际上,这些算法的进步是有限的几个原因。首先,在rsi中,地表覆盖的表现总是完全不同的。特别是,来自不同地区,即城市和农村的同一类别,在物体尺度和光谱值上可能看起来完全不同。如图1(a)所示,城市和农村的建筑和道路差异非常大。其次,不平衡和不一致的类别分布也对UDA RSI分割提出了特殊的挑战。如图1(b)所示,城市和农村的类别分布差异较大,这进一步增加了UDA RSI分割任务中模型泛化的难度。
为了解决这些问题,一个方向是在两个不同的域之间对齐类别级特征。[28]和[29]的作品采用在源域上计算的类别锚点来指导两个域的对齐,将类别中心约束为一个简单的欧氏距离。这种设计的问题在于没有考虑到类间特征之间的关系。因此,[30]中进一步使用了三重态损耗来规范类间特征之间的距离。虽然上述分类对齐方法已经取得了一些可喜的成果,但对于UDA RSI分割任务,仍存在一些亟待解决的问题。首先,对于rsi而言,类别内方差越大,两个域之间类别分布越不平衡,将严重误导不同类别特征之间距离的计算。此外,同时调整类内和类间的相对大小时,很难掌握决策边界,这往往需要一个复杂的手工阈值设置。
为了解决上述问题,在本文中,我们提出了一种新的深度协方差对齐(DCA)方法用于UDA RSI分割。该模型通过显式对齐类别特征来学习源领域到目标领域的共享领域不变判别知识。首先,利用分类特征池(CFP)模块,结合粗输出和深度特征提取分类特征;然后,我们利用一种新的协方差正则化(CR),使类内特征更接近,类间特征进一步分离。与现有的类别对齐方法相比,我们的CR旨在规范特征的不同维度之间的相关性,从而在处理分布不平衡和不一致的类别特征发散时表现出更强的鲁棒性。此外,我们的CR可以在没有任何复杂的手工设置的情况下进行培训。最后,为了减少错误积累,我们为我们提出的DCA提出了一个基于ST的阶段训练机制。
本文的其余部分组织如下:第二节回顾了相关的工作。第三节描述了我们提出的方法的细节。第四部分通过实验验证了本文方法的有效性,并与其他方法进行了比较。第五部分对本文进行了总结,并对今后的工作提出了建议。
2.相关工作
2.1.UDA RSI分割
近年来,随着[22]-[26]的提出,UDA RSI分割取得了很大的进展。这些方法大多集中于通过GAN[21]进行预成形光度比对,在图像空间、特征空间和输出空间对源图像和目标图像进行比对。Tasar等人[22]提出了颜色映射生成对抗网络(ColorMapGANs)来生成假的训练图像,以微调已经训练过的分类器。Ji等人[23]进一步使用GAN对多源rsi进行排列。然而,这些基于AT的模型很难训练,而且它们通常对齐来自不同领域的分布,但实际上并不获得来自不同领域的特征之间的映射。其他方法采用ST的思想,对目标域内的样本生成伪标签,并对分类器[31],[32]提供额外的监督。例如,Tong等[31]提出了一种基于st的UDA土地覆盖语义分割方法,使用可转移的深度模型。然而,容易出错的伪标签容易误导分类器,积累错误,限制了ST方法的有效性。
尽管这些方法已经取得了一些有希望的结果,但大多数方法都忽略了不同地理区域之间的不同风格。而对于城市和农村地区,土地覆盖的表现形式在类分布、物尺度和像元光谱上完全不同。为了提高UDA RSI分割的模型泛化能力,Wang等人[27]最初创建了一个突破性的LoveDA数据集,其中包含了不同的城市和农村RSI。该数据集旨在提高城市域和农村域的模型泛化能力,但大的类特征差异和类分布不一致严重限制了这一能力。
2.2.UD中的分类对齐方法
虽然上面提到的基于GAN的AT方法可以最小化域间隙,但并不能保证不同类别的特征可以很好地分离。因此,在[15]和[33]中利用类别级特征对齐的思想进行UDA分割。提出了特征和类别[34]、[35]的局部联合分布匹配方法。[36]中进一步引入了类别标签,以对预测标签的分布实施全局语义约束。最小化输出[37]的熵(不确定性)的思想也被用来隐式地实施类别级对齐
相对于上述方法中的隐式特征对齐,[28]-[30]提出了基于类别锚引导方法直接对两个域中的类别特征进行对齐,从而获得了更有竞争力的性能。其中,[28]、[29]采用了在源域上计算的类别锚点来指导两个域的对齐,可以看作是对类别中心的硬约束。硬约束为不同类别特征f1和f2之间的距离d,可简单定义为均方误差(MSE)函数为
其中|| ||表示欧氏距离。f1和f2分别代表来自两个不同域的同一类别的两个特征。这个距离d被用来通过一个损失函数Lmse来拉近类别内的距离
这里N表示类别总数,fi1和fi2分别是来自源域和目标域的第i个类别特征。
然而,这一策略并没有明确扩大不同类别特征中心之间的边缘。因此,Ma等人[30]提出了一种面向类别的源域三重态损失,该三重态损失施加了一种软约束来正则化类别中心,主动使高级特征空间中的类别间距离比类别内距离大一定范围。三态损耗Ltriplet表达式为
其中α表示规定的范围。然而,对于差异较大的不同类别,训练的最佳边际也是不同的,这需要一个经验丰富的手工设置。因此,[30]中的工作只对源域图像应用Ltri