Abstract
深度信息可以为RGB图像提供几何信息,但是现有的工作都认为深度信息的测量是准确的,将其作为特特征与RGB信息进行特征融合,但是在实际情况中,深度信息通常是有噪声的,可能会随着网络的深入反而降低准确性。
在本文中,提出了一种统一、高效的跨模态引导编码器,不仅可以有效地重新校准RGB特征响应,而且可以通过多个阶段提取准确的深度信息,并将两个重新校准的表示交替汇总。所提出的体系结构的关键是一种新的分离和聚合门控操作,该操作在跨模态聚合之前联合过滤和重新校准两种表示。同时,引入双向多步传播策略,一方面有助于两种模式之间的信息传播和融合,另一方面在长期传播过程中保持其特异性。
Introduction
直接将深度数据输入现有的RGB语义分割框架或简单地将两种模式的结果集成可能会导致性能下降。关键有两个:(1)RGB和Depth模态之间的实质性差异。RGB和depth数据表现出不同的特征。 如何有效地识别它们之间的差异,并将两类信息统一为一种有效的语义分割表示,仍然是一个有待解决的问题。 (2)深度测量的不确定度。 现有基准提供的深度数据主要由飞行时间或结构光相机捕获,如Kinect, AsusXtion和RealSense等。 由于物体材料的不同和测量距离的限制,深度测量通常存在噪声。
之前的方法:
(1)将深度数据作为另一个输入与RGB信息使用全卷积网络(FCN)进行融合。然后使用融合的特征来重新校准后续的RGB特征响应或预测结果。
存在的问题:深度数据和RGB像素对齐的可能不够好
(2)提出通过多任务学习提取深度特征,并将深度数据作为训