Unsupervised Domain Adaptation in Semantic Segmentation:a Review语义分割中的无监督领域自适应:综述
0.摘要
本文的目的是对语义分割的深层网络的无监督域自适应(UDA)的最新进展进行综述。这项任务吸引了广泛的兴趣,因为语义分割模型需要大量的标记数据,而缺乏数据拟合的特定需求是这些技术部署的主要限制。这一问题最近得到了探讨,并随着大量临时方法的出现而迅速发展。这促使我们对提议的方法进行全面概述,并提供清晰的分类。在本文中,我们首先介绍这个问题,它的公式和可以考虑的各种场景。然后,我们介绍了适应策略可能应用的不同层次:即输入(图像)层次、内部特征表示和输出层次。此外,我们还对该领域的文献进行了详细概述,根据以下(非相互排斥的)类别划分了先前的方法:对抗式学习、生成式学习、分类器差异分析、自学、熵最小化、课程学习和多任务学习。还简要介绍了新的研究方向,以提示该领域有趣的开放性问题。最后,比较了各种方法在广泛使用的自动驾驶场景中的性能。
1.介绍
在过去几年中,深度学习技术已经显示出令人印象深刻的效果,并在许多可视化应用中取得了巨大成功。然而,它们通常需要大量与所考虑的场景匹配的标记数据才能获得可靠的性能。为每个新任务和域收集和注释大型数据集非常昂贵、耗时且容易出错。此外,在许多情况下,由于各种原因,可能无法获得足够的训练数据,但通常情况下,大量数据可用于其他领域和任务,这些领域和任务在某种程度上与所考虑的领域和任务相关。因此,使用在不同任务的相关样本上训练的模型的能力将极大地有利于缺少数据的实际应用。这些考虑对于语义分割尤其重要,因为学习体系结构需要大量手动标记的数据,因为需要每像素标记,所以获取这些数据的成本非常高。
1.1.语义分割
语义分割是自动视觉理解中最具挑战性的任务之一,与图像分类或目标检测等简单问题相比,语义分割可以加深对图像内容的理解。图1概述了最常见的视觉任务。在图像分类中,为整个图像指定一个标签,并表示场景中的前主导对象。在对象定位中,通过边界框标识对象,并为每个框指定标签。在图像分割中,场景被聚集到与各种对象和结构相对应的区域中,但这些区域没有标记。相反,语义分割的任务是为图像中的每个像素指定与其语义内容相对应的标签。由于这个原因,它通常被称为密集标记任务,与其他简单问题相反,在这些问题中,作为输出的标签较少。语义分割是一个非常广泛的研究领域,人们提出了大量的方法来解决它。特别是,深度学习体系结构最近得到了实质性的改进。
从历史上看,语义分割的起源在于丰富了对场景的表示和理解,而不是简单的图像分类任务:出现了新的问题,需要对场景进行更高层次的解释,并有可能完成这一任务,由于新的架构和范例(例如,深度学习),为语义图像分割的广泛成功铺平了道路。
虽然图像分类允许在宏观层次上对图像中包含的内容进行分类(即,为每个图像指定一个标签),但语义图像分割生成图像中每个对象的像素级掩码(即,为每个图像的每个像素指定一个标签)。前者是一项简单得多的任务,长期以来,它一直被传统技术(如SVM、LDA等)和最近的深度学习技术所解决。因此,一些语义切分的早期工作是在分类工作的基础上建立起来的,并对其进行了调整和扩展。最新的最先进的方法依赖于由编码器和解码器组成的自动编码器结构,以便在保留输入空间维度的同时提取全局语义线索。
从众所周知的全卷积网络(FCN)体系结构开始,提出了许多模型,如PSPNet、DRN[和各种版本的DeepLab体系结构。这些模型可以实现令人印象深刻的性能,但这与培训所需的大量标记数据的可用性密切相关。出于这个原因,尽管像素注释过程非常昂贵和耗时,但已经创建了许多数据集:例如用于常见环境中的视觉对象的Cityscapes 和Mapillary,用于具有深度信息的室内场景的NYUD-v2和SUN-RGBD。鉴于这些考虑,最近的许多工作试图利用从其他来源或领域提取的知识,这些来源或领域的标签丰富且易于访问,以减少所需的手动注释数据量。
1.2.领域自适应:Domain Adaptation (DA)
大多数机器学习模型,包括神经网络(NNs),通常假设训练和测试样本是根据相同的分布绘制的。然而,在许多实际问题中,训练和测试数据分布不同。在本次调查中,我们关注的是一个模型在一个或多个域(称为源域)中训练,然后应用于另一个不同但相关的域(称为目标域)。这种学习任务称为领域适应(DA),是机器学习中的一个基本问题。如今,它得到了科学界的广泛关注,并在许多实际应用中代表了一个长期存在的问题,如计算机视觉、自然语言处理、情感分析、电子邮件过滤等。
域自适应可以被视为转移学习(Transfer learning, TL)的一种特殊情况,它利用一个或多个相关源域中的标记数据来执行目标域中的新任务。DA方法的目的是解决分布变化或领域转移,这通常会大大降低模型的性能。在过去的几十年中,人们提出了各种DA方法来解决传统机器学习策略和最近的深度学习体系结构的源域和目标域之间的转换。源域和目标域的本质对DA算法的最终性能有很大影响。事实上,人们认为它们之间存在某种联系,但并不完全相同。它们之间的相关性越大,DA任务就越容易,从而能够在测试数据上获得较高的结果。因此,良好执行策略的一个关键要素是能够发现合适的源数据,从中提取有用的线索
1.3.无监督领域自适应: Unsupervised Domain Adaptation (UDA)
域适配任务可以仅使用来自源域的数据或同时使用来自目标域的一些样本来执行。可以采用的最简单的解决方案是只对来自源域的标记样本进行训练,而不使用来自目标域的数据,希望不需要自适应(仅源)。在实践中,这会导致较差的性能,即使只有很小的视觉域偏移。为了解决这个问题,UDA方法利用来自源域的标记样本和来自目标域的未标记样本(源到目标UDA)。
特别是在需要逐像素标记的语义分割任务中,样本标注是要求最高的任务,而数据采集则更简单、更便宜。出于这个原因,在本次调查中,我们将介绍以无监督域适配(UDA)为名的场景。事实上,这在我们的特定设置中是最有趣的,因为没有对目标域的直接监督(即,不需要目标域的标签)。在这种情况下,典型的假设是源域和目标域是不同的,但在某种程度上是相关的(例如,源可以是合成生成的数据,类似于目标域中的真实世界表示)。通常,**源域上的初始有监督训练通过各种无监督学习策略适应目标域,目的是在目标域(没有可用的标签)上实现良好的性能。**在标准设置中,目标类的集合是相同的,但是可以考虑目标标签更改的高级设置(参见第2.1节)。
1.4.应用动机
有大量的应用程序可能会从UDA中受益匪浅。一般来说,每个应用程序都将重点放在一个非常特殊的设置上,使用特定的相机和特定的环境拍摄图像,以解决一个前缀任务。第一个也是最简单的解决方案是为特定问题获取尽可能多的标记数据,但是,正如前面提到的,不幸的是,这非常耗时和昂贵,因此在许多实际环境中不可行。另一方面,**大型和公开可用的标记数据集通常包含通用数据,它们在特定应用程序中的直接使用不会在相关特定应用程序域中提供良好的性能。**第二种解决方案是转移在更广泛的场景中获得的源知识,并使其适应所针对的特定设置。例如,这种情况在工业应用中相当普遍。人脸识别是一个很有挑战性的应用,多年来一直在积极研究。当在受控条件下获取训练和测试图像时,当前的人脸识别模型表现得非常好。然而,当测试图像包含训练图像中不存在的变化时,其准确性会迅速下降。
例如,这些变化可能是姿势、照明或视点的变化,并且取决于训练集和测试集的组成,这可以被视为领域适应问题。另一个简单的应用是对象识别,其中人们可能有兴趣将对象检测能力从通常较大的集合调整到特定的小数据集。此外,计算机图形学领域的最新进展允许为许多与视觉相关的任务生成大量合成数据。这允许轻松获得大型训练集,但另一方面,需要解决合成数据和真实数据之间的领域转移问题。在该领域中,最主要的应用是在自动驾驶车辆场景中,这将在第4节中进一步讨论。
1.5.大纲
本文主要分析和讨论语义分割中的深层次UDA方法。最近,有大量的研究与这项任务有关。然而,这些方法背后的激励思想是不同的。连接现有工程,从而更好地理解这个问题,我们将当前的文献分为几个类别。我们希望为UDA在语义分割方面的研究提供一个有用的资源。
综述的其余部分组织如下:
- 在第2A节中,给出了用于语义切分的UDA的简明而精确的公式,概述了适应过程可能发生的各个阶段。
- 在第3节中,我们概述了关于这一主题的艺术文献的现状。我们从监管较弱的前兆技术开始,然后根据用于对齐源分布和目标分布的技术,提出了一种分类方法。
- 在第4节中,我们介绍了一个用于道路场景语义理解的从合成到真实的无监督自适应的案例研究,并概述了按网络体系结构和评估场景分组的现有方法的结果。
- 在第5节中,我们总结了对不同适应技术的一些最终考虑,并概述了一些可能的未来方向。
2.语义分割的无监督域自适应算法
2.1.问题表述
图像分类和图像分割都可以归结为寻找函数h的问题:X→ Y,从输入图像的域空间X到标签空间Y,分别包含分类标签或语义映射。从数学角度来看,可以假设所有真实世界的标记图像(x,y)∈ X×Y是从X×Y上的潜在、固定和未知概率分布中提取的。函数的搜索应限于预定义的函数空间,称为假设类,根据问题的先验知识进行选择。在有监督的环境中,样本数据集被使用,以找到最佳映射h∈ H(即,使训练集上的成本函数最小化的解决方案)。另一方面,在DA中,考虑了X×Y上两种不同且相关的分布,即源分布Ds和目标分布DT。源域训练集从Ds数据中采样,目标域训练集从DT数据中采样或从其在X上的边缘分布中采样。DA的主要目的是使用来自源域的标记的数据样本或未标记的样本,或两者的混合物,找到在目标域的样本上表现良好的最佳映射h。
- 目标域中的标签可用于所有样本,则被称作监督DA任务;
- 标签仅适用于部分样品,则为半监督;
- 目标样本完全未标记(即,它们是从X的边际分布DT中提取的),则它是无监督的。
领域适应可以根据源(CS)和目标(CT)领域的类别(即类别或标签)以及学习过程中考虑的类别(CL)进一步细分:
- 闭集DA:所有可能的类别都出现在源域和目标域中(CS=CT);
- 部分DA:所有类别都显示在源域中,但只有一个子集显示在目标域(CT∈CS)
- 开放集DA:某些类别显示在源域中,而所有类别显示在目标域(CS∈CT);
- 开放部分DA:某些类别仅属于源集合或目标集合,而其他类别则属于这两个集合(CS≠CT & CS∩CT≠∅);
- 无边界DA:一种开集DA,其中所有目标域类别分别学习(CS∈CT & CL=CS∪CT)
值得注意的是,在开集DA中,通常情况下,不属于源域的目标集类别通过模型作为一个未知额外类进行学习,而在无边界DA中,它们是单独学习的。上述分类的概述如图3所示。
图3
2.2.语义分割中的无监督自适应:自适应空间
如前所述,源数据集和目标数据集之间存在协变量转移现象,这使得网络无法在无监督的目标数据上产生令人满意的结果。因此,解决域适应问题的主要策略是**弥合源分布和目标分布之间存在的差距。**这样做,影响预测模型的性能下降应该减少,从而在成功消除原始形式的统计差异时进行有效预测。在下文中,将对可能进行适应的不同级别进行回顾,这对于第3节中的论文分类也很有用。图4显示了可能的适应水平的视觉表示。
2.2.1.在输入级别上进行调整
一种方法是在输入级处理统计匹配,以实现输入图像样本视觉外观的跨域一致性。即使源图像和目标图像在场景内容和布局上具有很强的高层语义相似性,域间的低层统计差异尽管大多缺乏语义意义,但也可能导致对目标样本的预测效果降低。鉴于这些考虑,大量的作品集中于风格转换技术,以从原始图像水平集关闭源图像和目标图像的边缘分布。常用的方法是发现一个函数,该函数将源图像映射到一个新的空间,在该空间中,投影的样本应与目标样本具有增强的感知相似性。然后,图像分割网络可以在训练过程中从域不变的输入空间访问样本。最近,另一方面的翻译也得到了探索,即目标图像在被送入分割网络之前先传输到源域。
尽管该策略原则上完全独立于任务(通常在与任务预测器训练无关的阶段执行),但在其普通方案中使用该策略时,在没有任何额外正则化约束的情况下,缺少足够的辨别能力。事实上,边缘分布的对齐可以完全实现,但语义上的一致性可能无法保持,**类条件分布(在无监督目标域的训练时不可访问)在域之间仍然不同。**换句话说,人们可能会发现许多领域不变的表示,它们都缺乏语义区分性,无法解决目标领域中的分割任务。例如,当某个类的对象映射到不同的类别时,可能会发生这种情况,这些类别可能完全符合统计对齐约束,而实际上忽略了内容保留。为了绕过这些问题,已经设计了多种方法来加强图像翻译的语义一致性,例如借助图像重建约束、分割预测的一致性或特殊工程技术来安全地处理低级统计数据。
2.2.2.在特征级别上进行调整
另一种方法是寻求网络潜在嵌入的分布对齐。其核心思想是通过调整源域和目标域的潜在表示的分布(全局和类),强制特征提取器发现域不变特征。通过这种方式,网络分类器应该能够学习从公共潜在空间中分割源和目标表示,仅依靠源数据的监督。与已经成功应用特征域自适应的分类任务相比,语义分割需要一个更复杂、高维的特征空间,它应该编码局部和全局视觉线索。因此,在特征层面以最简单的方式进行对齐可能在语义分割中效果较差,因为特征嵌入具有结构和语义的复杂性,很难完全捕获和处理(例如,通过对抗性鉴别器)。此外,尽管自适应特征原则上应保持语义区分性,但它们实际上对应于分割过程中的中间表示,并且不能保证联合图像标签分布在域之间对齐,由于未标记的目标图像仅从边缘分布中提取。这会导致对无监督目标表示的错误知识概括。基于上述原因,在语义分割中采用了特征自适应技术,并结合其他补充技术或具体安排来仔细克服这些主要问题。
2.2.3.在输出级别上进行调整
为了避免处理过度卷积的潜在空间,一组不同的自适应方法求助于在语义分割的输出空间跨域分布对齐。在保留足够复杂和丰富的语义线索的同时,来自分割网络输出(或最后一层的每类输出)的预测图确定了一个低维空间,在该空间中,**可以非常有效地执行自适应,例如重复使用对抗策略。**此外,在未标记的目标数据上可以很容易地推断分割图上的标签统计信息,从而为分割任务引入了一种自建的弱监督形式。来自标签分布的源先验信息也可以在适应过程中有利地施加,因为它们通常涉及与特定域无关的高级结构属性。
2.2.4.在自组织网络(Ad-Hoc Network )级别上进行调整
除了上述技术外,其他作品在网络激活时,还采用了在自组织空间上的分布对齐。此类方法旨在更好地捕获解决分割任务所必需的高级模式,并最终实现源嵌入和目标嵌入的更好匹配,这得益于在不同层次上通过分割网络回流的梯度。因此,自适应不仅限于特定的网络级别,比如在特征提取网络的末尾实现,也属于在中间级别实现。
3.无监督领域适应策略综述
本节回顾了与语义分割最相关的无监督领域自适应方法。本节首先介绍一些用于语义分割的弱监督和半监督学习方法。这些方法并不是严格意义上的UDA方法,因为它们需要对通常比较简单的任务进行一些最小程度的注释监督,但它们代表了处理域适应问题的起点。
然后,我们将UDA方法分为7个主要类别,如图5中的视觉概述所示。
- 领域对抗性鉴别方法(第3.2节)通过对抗性学习计划,学习生成与训练样本的统计分布类似于的数据。
- 基于生成的方法(第3.3节)通常使用生成网络在域之间转换数据,以便从源数据生成类似目标的训练集,或者将源数据转换为更接近目标域特征的表示,然后将其反馈给网络。
- 第3.4节介绍了分类器差异方法,在单个编码器上使用多个密集分类器来捕获不太适应的目标表示,进而通过类似于对抗的策略鼓励改进远离决策边界的跨域特征对齐。
- 第3.5节中的自训练方法(自我监督),根据当前估计生成某种形式的伪标签(通常使用一些置信度估计方案来选择最可靠的预测),以自动指导学习过程(自我监督)。
- 第3.6节中的熵最小化方法旨在最小化目标输出概率图的熵