MVSalNet:用于 RGB - D 显著目标检测的多视图增强方法
在计算机视觉领域,RGB - D 显著目标检测(RGB - D SOD)是一个重要的研究方向,旨在从 RGB 图像和对应的深度图中准确识别显著目标。本文将介绍一种名为 MVSalNet 的新方法,它通过多视图增强技术在 RGB - D SOD 任务中取得了优异的成果。
1. 研究背景
传统的 RGB - D SOD 方法主要基于手工特征,如对比度、形状、紧凑性等。然而,这些手工特征的表示能力有限,难以应对复杂场景。近年来,基于深度学习的方法取得了显著进展,可分为单流模型和多流模型。单流模型直接融合 RGB 图像和深度图输入网络,而多流模型则采用并行网络提取和融合多模态特征。但这些方法通常仅将深度信息作为特征提取器的直接输入。
为了更好地利用深度信息,本文提出了一种新的方法,通过利用深度信息中的几何先验知识,对 RGB 图像进行旋转,生成多视图 RGB 图像,从而有效解决了 RGB 图像和深度图之间的模态差距,并减少了低质量深度图中的噪声。
2. 相关工作
- 新颖视图合成 :在一些任务中,新视图可以作为数据增强方法进行合成。例如,将 3D 物体检测问题转化为在鸟瞰图中检测旋转边界框,通过随机操纵相机系统生成具有几何偏移的新训练图像,以及引入透视感知数据增强来合成更多样化视图的新训练样本。受这些方法的启发,本文提出在 RGB - D SOD 中生成多视图 RGB 图像。
- 注意力机制和 Transformer :全卷积网络是用于密集预测的成熟架构,而注意力机制已被
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



