[IJCAI 2024] | BRGScene: 桥接Stereo和BEV特征用于可靠的语义场景补全_bridging stereo geometry and bev representation wi-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_42821501/article/details/140399750

本文是对IJCAI2024接受的文章 BRGScene: Bridging Stereo Geometry and BEV Representation with Reliable Mutual Interaction for Semantic Scene Completion的介绍，BRGScene在SemanticKITTI基准测试中超过了其他基于相机的方法，实现了精确的几何和语义建模。代码已开源，欢迎大家试用和Star~
请添加图片描述

Motivation

3D语义场景补全（SSC）作为一种不适定的感知任务，需要从有限的观察中推断出稠密完整的3D场景。由于固有的几何模糊性和不完整的观察，以前的基于摄像机的方法难以预测准确的语义场景。

在这里插入图片描述

Method

我们采用立体匹配（stereo matching）技术和鸟瞰图（BEV）表征学习来解决 SSC 中的此类问题。立体匹配与BEV表征相辅相成，前者通过外极约束减轻了几何模糊性，后者通过全局语义信息增强了对不可见区域的补全能力。然而，由于立体几何和 BEV 特征之间存在固有的表征差距，要在 SSC 的 "密集预测任务 "中弥合这两者之间的差距并非易事。因此，我们进一步开发了一个统一的Occupancy框架，称为BRGScene，它能有效地将这两种表征与密集的三维体积结合起来，从而完成可靠的语义场景。

在这里插入图片描述
如图所示， BRGScene旨在仅从 RGB 图像中推断稠密的三维几何和语义信息。该架构主要包括两种volume表征的构建，以及为缩小表征差距实现细粒度可靠感知设计的Mutual Interactive Ensemble（MIE）模块。

双向交互组合模块（MIE）用于在像素级可靠地聚合立体几何和 BEV 特征。在 MIE 模块中，采用了双向可靠交互模块（BRI），通过置信度加权进行特征可靠度增强，并鼓励通过相互引导进行细粒度交互。此外，还引入了双体积聚合模块（DVE），通过通道重新校准和多组特征投票来促进互补聚合。

双向可靠交互模块 BRI

对于像素级可靠的交互，我们提出了一种交互方式，有选择地检索可靠的信息及其对应的体积。如上图所示，我们设计了一个双向可靠交互模块（BRI），通过交叉注意机制，交互式地指导其反面的可靠预测。对于立Stereo Volume，我们首先在空间和深度维度上进行扁平化，获取其用于注意力机制的Q、K和V。同样，对于BEV Volume也进行相应操作。
为了进一步检索像素级可靠信息，我们设计了一种深度置信过滤策略，该策略显式地利用了volume背后的可靠几何信息。我们的目标是利用其深度置信度信息来执行交叉注意操作。特别是，为了将体积投影到置信图中，我们首先采用softmax将深度代价值di转换为概率形式，然后取出沿深度维度的所有深度假设平面中最高的概率值作为预测置信度：
${\textbf{C}_S= WTA(\phi ( \textbf{V}_{Stereo} )) = WTA \left\{ \frac{\exp(d_i)} {\sum_{j=1}^{D_{max}}\exp(d_j)} \right\},}$