Bi-directional Cross-Modality FeaturePropagation with Separation-and-AggregationGate for RGB-D Sem

Abstract

深度信息可以为RGB图像提供几何信息,但是现有的工作都认为深度信息的测量是准确的,将其作为特特征与RGB信息进行特征融合,但是在实际情况中,深度信息通常是有噪声的,可能会随着网络的深入反而降低准确性。

在本文中,提出了一种统一、高效的跨模态引导编码器,不仅可以有效地重新校准RGB特征响应,而且可以通过多个阶段提取准确的深度信息,并将两个重新校准的表示交替汇总。所提出的体系结构的关键是一种新的分离和聚合门控操作,该操作在跨模态聚合之前联合过滤和重新校准两种表示。同时,引入双向多步传播策略,一方面有助于两种模式之间的信息传播和融合,另一方面在长期传播过程中保持其特异性。

Introduction

直接将深度数据输入现有的RGB语义分割框架或简单地将两种模式的结果集成可能会导致性能下降。关键有两个:(1)RGB和Depth模态之间的实质性差异。RGB和depth数据表现出不同的特征。 如何有效地识别它们之间的差异,并将两类信息统一为一种有效的语义分割表示,仍然是一个有待解决的问题。 (2)深度测量的不确定度。 现有基准提供的深度数据主要由飞行时间或结构光相机捕获,如Kinect, AsusXtion和RealSense等。 由于物体材料的不同和测量距离的限制,深度测量通常存在噪声。

之前的方法:

(1)将深度数据作为另一个输入与RGB信息使用全卷积网络(FCN)进行融合。然后使用融合的特征来重新校准后续的RGB特征响应或预测结果。

存在的问题:深度数据和RGB像素对齐的可能不够好

(2)提出通过多任务学习提取深度特征,并将深度数据作为训

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值