论文地址:https://openaccess.thecvf.com/content/CVPR2022/papers/Liu_GraftNet_Towards_Domain_Generalized_Stereo_Matching_With_a_Broad-Spectrum_and_CVPR_2022_paper.pdf
源码地址:https://github.com/SpadeLiu/Graft-PSMNet
引言
监督式立体匹配网络(如PSMNet、GANet)在合成数据(如SceneFlow)上表现优异,但在真实场景中存在显著的领域差距(domain gap),导致泛化能力不足。现有解决方案包括无监督学习、领域适应和领域泛化方法,本文聚焦于最具挑战性的领域泛化场景(即训练阶段无法获取目标域数据)。
通过实验发现,直接替换普通立体匹配网络的特征提取模块为预训练广谱特征(如ImageNet训练的VGG特征)会导致性能崩溃。原因是基于特征拼接的代价体积(cost volume)使代价聚合模块过度依赖特定特征。文中提出两阶段改进:1)广义代价空间:用余弦相似度替代特征拼接构建代价体积,消除语义干扰并增强数值稳定性,实现特征提取与代价聚合模块的解耦。2)任务导向特征适配:通过浅层U型网络(特征适配器)从广谱特征中恢复立体匹配任务相关的信息,减少对源域数据的过拟合。
方法
基于余弦相似度的广义成本空间构建
基础网络训练阶段,用余弦相似度替代传统特征拼接构建代价体(Cost Volume)。优势在于:
- 消除语义信息干扰(不同域间语义类别差异大);
- 数值归一化提升跨域稳定性;
- 兼容任意通道数的特征输入。
C ( x , y , d ) = F l ( x , y ) ⋅ F r ( x − d , y ) ∣ ∣ F l ( x , y ) ∣ ∣ ⋅ ∣ ∣ F r ( x − d , y ) ∣ ∣ (1) C(x,y,d) = \frac{F_l(x,y) \cdot F_r(x-d,y)}{||F_l(x,y)|| \cdot ||F_r(x-d,y)||}\tag{1} C(x,y,d)=∣∣Fl(x,y)∣∣⋅∣∣Fr(x−d,y)∣∣Fl(x,y)⋅Fr(x−d,y)(1)
监督训练策略:在SceneFlow合成数据集上,采用交叉熵损失和平滑L1损失联合监督训练,前者约束视差概率分布,后者约束最终视差值预测。
广谱特征移植与任务适配
加载预训练特征模块:从ImageNet预训练的经典模型(如VGG16)中提取与基础网络分辨率匹配的中间层特征。将预训练特征提取模块直接嫁接到训练好的代价聚合模块,保持两个模块参数固定不进行微调。
特征适配优化阶段
构建浅层U型网络:设计包含跳跃连接的浅层网络作为特征适配器,用于从广谱特征中恢复立体匹配任务所需的细节信息。冻结参数训练:固定广谱特征和成本聚合模块参数,仅训练特征适配器参数,通过源域数据驱动特征空间转换。
代价聚合模块再训练
模块参数解冻重训练:在获得任务导向特征后,重新训练代价聚合模块参数以适配新特征空间,采用分阶段学习率策略(初始0.001后降至0.0001)进行10轮优化。
实验