论文地址:https://openaccess.thecvf.com/content/CVPR2023/papers/Chang_Domain_Generalized_Stereo_Matching_via_Hierarchical_Visual_Transformation_CVPR_2023_paper.pdf
源码地址:https://github.com/cty8998/HVT-PSMNet
概述
近年来,深度立体匹配(SM)网络在计算机视觉领域表现出色,吸引了越来越多的关注。然而,现有的深度SM网络容易学习到依赖于数据集的捷径(shortcut),这导致它们在未见过的现实数据集上泛化能力不佳。本文旨在训练鲁棒的模型,以解决域泛化的立体匹配任务,主要关注从合成数据中学习不依赖于捷径的表示,以缓解域偏移问题。文中提出了一种分层视觉变换(Hierarchical Visual Transformation, HVT)网络,该网络首先将训练样本从三个层次(全局、局部和像素)转换到具有不同分布的新域中,然后最大化源域与新域之间的视觉差异,并最小化跨域特征不一致性,以捕获域不变特征。这样可以防止模型利用合成立体图像的伪影作为捷径特征,从而基于学习到的鲁棒且不依赖于捷径的表示更有效地估计视差图。 贡献点如下:
-
设计了一种简单有效的领域泛化立体匹配(SM)框架。该框架利用层次化视觉变换网络(Hierarchical Visual Transformation, HVT)有效地多样化训练数据的分布,防止模型利用合成数据中的伪特征作为捷径,从而基于学习到的捷径不变特征表示更有效地估计视差图。
-
提出了新颖的学习目标,通过最大化领域差异性和最小化特征不一致性,迫使模型有效地优化三种互补的视觉变换,从而促进领域不变特征表示的学习。
-
在四个现实世界的SM数据集上进行了广泛的实验,清晰地展示了HVT网络的有效性和鲁棒性。该方法显著提高了现有SM网络在合成到现实领域的泛化能力,无需使用任何辅助数据或特征。
方法
Hierarchical Visual Transformation
全局变换(Global):通过调整图像的基本视觉属性(亮度、对比度、饱和度和色调)来全局改变立体图像对的分布。
局部变换(Local):将给定的立体图像分割成非重叠的patch,对每个补丁应用全局变换,然后将这些变换后的补丁合并回立体图像。
像素变换(Pixel):通过像素级扰动矩阵来扰动给定的立体图像。
Learning Objectives
为了有效地训练我们提出的HVT网络,文中引入了以下损失项进行网络优化:
最大化跨域视觉差异:我们提出通过将合成源域数据转换成几个新的源域来改善立体匹配网络的泛化能力。我们的第一个目标是使新源域的分布与原始合成数据的分布尽可能不同。通过最小化域相似性来实现这一点,使用余弦相似度函数来衡量域间的差异,并通过最小化交叉熵损失来进一步提高域差异。
最小化跨域特征不一致性:为了增强模型的泛化能力,需要学习立体图像的领域不变特征表示。文中希望视觉变换T(·)不会改变图像的核心特征(例如,语义和结构特征)。因此,第二个目标是使变换后的立体图像的特征表示与原始合成图像的特征表示保持一致。通过最小化成对距离项来实现这一点,这有助于学习领域不变特征,
从而提高领域泛化的立体匹配性能。
实验