Semi-supervised Domain Adaptation based on Dual-level Domain Mixing for Semantic Segmentation:基于双层领域混合的半监督领域自适应语义分割
0.摘要
尽管基于数据驱动的方法在许多任务中取得了巨大成功,但当应用于看不见的图像域时,泛化能力较差,并且需要昂贵的注释成本,尤其是对于语义分割等密集像素预测任务。近年来,为了缓解这一问题,人们对大量合成数据的无监督领域自适应(UDA)和小样本标记数据的半监督学习(SSL)进行了研究。然而,与受监管的同行相比,他们的绩效仍有很大差距。我们将重点放在半监督域适配(SSDA)的一个更实际的设置上,其中既有少量的标记目标数据,也有大量的标记源数据。为了解决SSDA的任务,提出了一种基于双层域混合的新框架。拟议的框架包括三个阶段。首先,提出了两种数据混合方法,分别在区域级和样本级减小域间距。基于两个层次的混合数据,我们可以分别从整体和局部的角度获得两个互补的领域混合教师。然后,通过从这两位老师那里提取知识来学习一个学生模型。最后,以自我培训的方式生成未标记数据的伪标签,用于另外几轮教师培训。大量的实验结果证明了我们提出的框架在合成到真实语义切分基准上的有效性。
1.介绍
在过去几年中,深度卷积神经网络(CNN)在语义分割方面取得了巨大的进步[1,25,17,26,2,49]。基于CNN的方法的成功得益于大量手动标记的数据[24,8],以及训练样本和测试样本之间独立且相同的数据分布假设。 然而,当在训练集(源域)上训练的模型直接应用于看不见的测试场景(目标域)时,性能会显著下降。此外,在目标域中密集地注释多个样本的像素级标签既耗时又不经济。
为了减少对像素注释的大量需求,一种方法是使用大量易于获取的模拟数据,这些数据可以从GTA5[33]和SYNTHIA[34]等游戏引擎中收集。此外,无监督领域适应(UDA)策略旨在将知识从合成标签丰富的源领域转移到现实世界标签稀缺的目标领域,需要弥合合成和现实世界领域之间的领域鸿沟。UDA方法通过熵最小化[31,43]、生成建模[16,12]和对抗性学习[42,41]来提取域不变表示,取得了令人印象深刻的结果。然而,由于对目标实例的监督不力,这些方法无法完全消除域转移。与监督方法相比,在性能上仍有很大差距。解决重标注问题的另一种方法是仅标注目标域中的一小部分图像,并使用半监督学习(SSL)技术充分利用大量未标记数据[10,30,9,29]。 由于SSL设置中缺少标记数据,因此获得的模型有过度拟合少量标记数据的风险。如何有效地利用来自不同领域的可用未标记和有限标记数据,是提高像素级预测任务模型精度和泛化能力的关键。
因此,最近引入了一个更实用的半监督域自适应(SSDA)任务,它将SSL中的一小组标记目标数据图像与大量标记源域数据和未标记目标域数据相结合。为了解决SSDA问题,一种简单的方法是在额外标记的目标图像上为UDA方法配备额外的监控(见表1中的基线)。例如,提出了缓解语义水平转移(ASS)模型[44],通过对两个标记域的输出使用对抗性学习,更好地促进特征的分布一致性。然而,这些方法无法充分挖掘两个领域中可用的标记和未标记数据中的丰富信息。
语义分割是一项密集的像素预测任务,对一个像素的分类不仅取决于其本身的值,还取决于其邻域的上下文。我们专注于如何有效地利用不同领域的标记数据提取区域级和样本级的域不变表示。拟议的框架包括三个步骤。
- 首先,提出了两种数据混合方法,以减少区域级和样本级的数据差异;区域级数据混合是通过对两个域的标记图像应用两个掩码,并将两个掩码区域相结合来实现的,从而鼓励模型从局部视图中提取语义结构的域不变特征。图像级数据混合直接从整体角度将两个域的标记图像混合。
这两种混合的方式有助于培养两种互补的教师模式,这两种模式都适用于两种数据分布。 - 第二步,我们采用知识蒸馏技术从这两位互补的教师中提取“暗知识”,作为目标领域学生模型学习过程的指导。
通过整合两种观点的知识,并充分利用未标记数据,相同网络结构的学生模型甚至可以比任何教师的性能更好。一旦获得目标域的好学生模型,就可以通过自训练策略生成伪标签,对已标记的目标域数据集进行扩展,进行迭代更新。与直接使用伪标签训练最终模型的传统自我训练方法相比,我们利用这些伪标签获得了两个更强的领域混合教师,这也使得学生通过新一轮的知识提炼变得更强。
总的来说,在我们的框架中,教师和学生都在逐步成长,我们可以得到一个最终训练有素的学生模型。
本文的贡献有三个方面:
- 提出了两种数据混合方法,对跨领域混合教师进行区域级和样本级的培训,以缓解不同领域间数据分布不匹配的问题。
- 在目标域上更强大的学生模型从互补领域的混合教师中提取知识。它可以通过使用伪标签来进一步增强,伪标签是以自训练的方式为未标记的目标数据生成的
- 大量实验表明,该方法在两种常见的合成到真实语义分割基准测试中都能取得优异的性能。
2.相关工作
2.1.用于语义分割的无监督域自适应
为了解决真实感合成数据集和未标记真实数据集之间的领域差异,无监督领域自适应(UDA)语义分割方法得到了广泛的研究。一种主流方法是通过对抗性学习[42,41,6,5,17,37,19],其目的是使用鉴别器来测量两个领域的差异。解决UDA问题的另一种方法是利用生成网络[38,16,50],通过在注释源图像上应用样式转换技术来生成目标样式图像。一些基于自我训练的方法[21,51,23,14]已被用于生成未标记数据的伪标签,并使用它们微调模型。[21]首先生成不同风格的注释图像,学习纹理不变表示,然后使用自训练生成未标记数据的伪标签,在目标域上微调模型。
虽然UDA在语义分割方面取得了令人印象深刻的成果,但由于目标领域缺乏强有力的监督,领域差距无法完全缓解,而且与受监督的领域相比,仍然存在明显的性能差距。
2.2.语义分割的半监督学习。
减少手动像素级标记需求的一种方法是只标记目标分布中的少量数据,并采用半监督学习(SSL)策略在大量未标记和有限标记数据中学习一个伟大的广义模型。此后,人们开发了许多方法来改进模型的泛化[30,20,9,29,18,4,13]。一致性正则化是最流行的方法之一,其关键思想是鼓励网络对扰动的未标记输入给出一致的预测。一项最相关的工作是[10],它通过一个具有师生体系结构的区域级数据增强CutMix[47]来加强教师网络的混合输出和学生对混合输入的预测之间的一致性[40]。我们的方法与他们的方法也有相似的理念,但是,我们建议用两种领域混合方法来训练两个领域混合的教师,以充分利用来自两个不同领域的两组数据。
2.3.半监督域自适应
与UDA相比,还旨在减少数据分布不匹配,半监督领域自适应(SSDA)通过引入部分标记的目标样本来弥合领域差异。
最近,基于深度学习[46,32,22,35]的一些图像分类方法被提出。[46]将SSDA分解为两个子问题:UDA和SSL,并采用联合训练[3]在两个分类器之间交换专业知识,这两个分类器在每个视图的标记和未标记数据之间混合[48]数据进行训练。
由于语义分割中的复杂密集像素预测和示例之间没有明确的决策边界,基于区分类边界的SSDA图像分类方法不能直接应用于语义分割。之前的一项工作是研究SSDA的语义分割。Wang等人[44]提出了缓解语义水平转移(ASS)框架,从全局和语义层面实现跨领域的特征对齐。ASS引入了一个额外的语义级自适应模块,通过对源和目标标记输入的相应输出进行对抗性训练,并在经典的AdapteSeg框架下对额外的少量标记目标数据进行额外监督[41]。然而,对标记的目标样本进行简单的监督并不能充分利用标记的两个域,而且由于监督能力较弱,对抗性损失使得训练不稳定。为了解决这个问题,我们提出了一种新的基于双层域混合方法的迭代框架,无需任何对抗性训练。
3.方法
图1所示。提出的SSDA框架的前两个阶段,领域混合教师的培训和多教师知识的提炼。
基于双层混合数据对领域混合教师进行培训。然后使用这两个领域混合的教师来培养一个好学生。学生将为下一轮教师培训生成伪标签。E表示两个领域混合教师的集合操作。黑色箭头表示训练数据流,蓝色箭头表示推理数据流,它们不需要向后流动。红色箭头表示损失的计算。
3.1.问题陈述
在半监督领域自适应问题中,少量目标域的标记影像被提供,设DS={(xsi,ysi)}NS i=1表示NS标记的源域样本,DT={(xt i,yt i)}NT i=1表示NT标记的目标域样本,DU={xu i}NUi=1表示NU未标记的目标域样本。在SSDA设置下,我们的目标是开发一种有效利用可用DS、DT和DU的方法,并获得一种分割模型,该模型对从目标数据分布中采集的未知测试数据具有良好的性能。
3.2.领域混合教师
性能下降源于不同域中不一致的数据分布。我们提出了两种数据混合方法,一种是区域级数据混合,另一种是样本级数据混合,从两个角度缩小数据分布差距。众所周知,带有标记的地面真相的数据为在基于深度学习的方法中训练一个模型提供了大量信息。在SSDA中,提供了两种类型的标记数据,即DS和DT。我们在这两类标记数据上实现了区域级和样本级的数据混合方法,并且可以在混合数据上训练两个领域混合教师模型。由于对数据不同角度的信息进行混合法,这两个领域混合的教师是互补的。