MonoCD: 单目 3D 物体检测与互补深度

Abstract

单目 3D 物体检测由于其能够从单张图像中低成本地准确获取物体 3D 定位的潜力,受到了广泛关注。深度估计是单目 3D 物体检测的一个重要但具有挑战性的子任务,因为从 2D 到 3D 的映射是不适定的。许多方法探索多个局部深度线索,如物体高度和关键点,然后将物体深度估计表述为多个深度预测的集成,以缓解单一深度信息的不足。然而,现有的多个深度预测的误差往往具有相同的符号,这阻碍了它们相互中和,限制了组合深度的整体精度。为了缓解这个问题,我们提出通过两个新的设计来增加深度的互补性。首先,我们添加了一个新的深度预测分支,名为互补深度,该分支利用整个图像的全局和高效深度线索,而不是局部线索,以减少深度预测的相似性。其次,我们提出充分利用多个深度线索之间的几何关系,以实现形式上的互补性。受益于这些设计,我们的方法实现了更高的互补性。在 KITTI 基准上的实验表明,我们的方法在不引入额外数据的情况下实现了最新的性能。此外,互补深度还可以作为一个轻量级的即插即用模块来提升多个现有的单目 3D 物体检测器。代码可在 https://github.com/elvintanhust/MonoCD 获取。

1. Introduction

作为学术界和工业界的一个重要研究课题,3D 物体检测能够使非人类智能感知 3D 世界。与基于 LiDAR 和双目立体视觉的方法相比,单目 3D 物体检测因其更低的价格和更简单的配置受到了广泛关注。然而,其 3D 定位的准确性显著低于基于 LiDAR 和双目立体视觉的方法。为了推进和推广自动化技术,如自动驾驶和机器人技术,提高单目 3D 物体检测的 3D 定位精度是至关重要的。

最近,许多单目 3D 物体检测算法已经认识到,限制单目 3D 物体检测 3D 定位精度的主要原因是不准确的深度估计。遵循主流的 CenterNet 范式,这些算法探索了多种局部深度线索,并将深度估计表述为多个深度预测的集成,以缓解单一深度信息的不足。例如,MonoFlex 从直接估计和物体高度中探索局部深度线索,随后通过加权平均将其组合为一个深度。MonoDDE 在此基础上进一步揭示了来自物体视角点的线索。

然而,在 KITTI 数据集上的实验显示,95% 的现有多深度预测集成具有相同的误差符号,即如图 1(a) 所示,多数预测深度通常分布在真值的同一侧,这导致深度误差无法相互中和,阻碍了组合深度精度的提高。我们将这种耦合现象归因于它们使用的局部深度线索都是来自 CenterNet 范式下物体周围的相同局部特征。

图1 (a):

  • 耦合(coup)和互补(comp)多深度比较,具有两个深度分支Z1和Z2。
  • Z* 和 Zsoft分别表示深度的真实值和最终的组合深度。

图1 (b):

  • 两个深度分支互补性的展示,通过几何关系展示,只考虑物体3D高度H的不准确估计时。
  • Z1 由广泛使用的局部高度线索生成。
  • Z2 由我们新引入的全局线索yglo生成。
  • H* 和 Hˆ 分别表示H的真实值和低估的H值。

在本文中,我们提出增加深度的互补性来缓解这个问题。这里的互补性不仅指这些预测具有高准确性,还指它们具有不同的误差符号。为此,我们提出了两个新设计。首先,考虑到上述的耦合现象,我们新增了一个深度预测分支,该分支利用整个图像的全局和高效深度线索,而不是局部线索,以减少深度预测的相似性。它依赖于一个全局信息,即图像中的所有物体大致位于同一平面上。其次,为了进一步提高互补性,我们提出充分利用多个深度线索之间的几何关系,以实现形式上的互补性,这利用了同一几何量的误差可能对不同分支产生相反影响的事实。例如,在图 1(b) 中,Z1 具有负误差,因为相关线索 3D 高度 H 被低估了,而在这种情况下,Z2 具有正误差,因为 H 对 Z2 的影响结合了新的线索 yglo,与 Z1 相反。因此,基于 H 的几何关系在形式上为 Z1 和 Z2 提供了互补性。

2. Related work

2.1. 基于中心的单目3D检测器
许多近期的研究工作(如[5, 16, 20, 36, 41, 43])是在流行的基于中心的检测框架CenterNet [42]上扩展的。CenterNet是一种无锚方法,最初用于2D目标检测。由于将3D边界框的所有属性转换为对中心点的估计,CenterNet简化了检测过程,并提高了效率。

SMOKE [18]继承了这一框架,提出可以省略2D边界框的估计。而MonoDLE [21]发现,2D边界框的估计实际上有助于3D属性的预测,并表明深度误差是限制单目3D目标检测精度的主要原因。MonoCon [17]发现,围绕检测中心增加辅助学习任务可以提高模型的泛化能力。然而,尽管基于中心的框架具有很多优势,但它导致所有3D属性的预测都高度依赖局部中心,忽略了对全局信息的利用,从而引发了3D属性预测的耦合问题。

2.2. 基于Transformer的单目3D检测器
得益于注意力机制的非局部编码能力[32]及其在目标检测中的应用发展[2],近年来提出了多种基于Transformer的单目3D检测器,以增强全局感知能力。例如,MonoDTR [8]提出通过深度位置编码将全局深度信息注入到Transformer中以指导检测,但需要LIDAR进行辅助监督。与此不同,MonoDETR [39]通过前景目标标签来预测前景深度图以实现深度引导。为了提高推理效率,MonoATT [44]提出了一种自适应token的Transformer,使得更细粒度的token可分配到图像中更重要的区域。

尽管这些方法表现良好,但基于Transformer的单目3D检测器仍存在计算复杂度高、推理速度慢的缺点。因此,目前仍缺乏一种既能够综合全局信息,又能在实际自动驾驶场景中具有低延迟的有效方法。

2.3. 多深度估计
除了直接使用深度神经网络估计物体深度外,许多最近的工作通过预测与深度相关的几何线索来拓展深度估计分支。研究[20, 29]利用数学先验和不确定性建模,通过3D与2D高度的比率恢复深度信息。在此基础上,MonoFlex [40]进一步将几何深度扩展为由3D边界框的其他支撑线所形成的三组深度,并提出使用不确定性作为权重,将多个深度组合成最终的深度。

MonoGround [25]引入了局部地面平面先验,通过在每个物体的底部平面中随机采样密集点来丰富深度监督来源。MonoDDE [15]则利用关键点信息,将深度预测分支扩展到20个,强调了深度多样性的重要性。然而,多个深度之间的互补性很少被探索。几何线索(如2D/3D高度)中的误差会累积到相应的深度误差中。没有有效的互补性,现有的深度误差无法被抵消。

3. Approach

3.1. Problem Definition

3.2. The Effect of Complementary Depths

为了在实践中证明互补深度的有效性,我们选择了经典的多深度预测基线 [40] 来在 KITTI 验证集上进行评估。它包含4个深度预测分支(1个直接估计的深度和3个几何深度),经过测试,任意两个分支的耦合率约为95%。如图3左所示,我们基于公式(5),在0%到100%的样本规模上对直接深度估计分支沿真实值进行对称翻转,以实现不同级别的深度互补。此外,考虑到在实际中难以在保持相同精度的情况下获得误差符号相反的深度预测,我们在翻转深度分支时应用了不同幅度的随机扰动。结果如图3右所示。在对其他分支进行相同操作后也观察到了类似结果。基于此,我们有以下三点观察:

  1. 观察1:在图3左侧,随着翻转样本比例的增加,检测精度提高。这表明增加多个深度预测分支之间的互补性可以持续提高检测精度。
  2. 观察2:对于两个独立的深度预测分支,理想情况下,它们的预测在所有样本中具有相反符号的比例应为50%。由于基线中多个分支的耦合情况,这与图3左侧的50%翻转比例相似。因此,减少多个深度预测分支的相似性也可以增加它们的互补性。
  3. 观察3:在图3右侧,当翻转比例固定为50%时,直到施加了2米幅度的随机扰动(对于KITTI数据集中的车辆,这是非常大的[21]),互补效果才消失。这表明,即使在失去一些深度估计精度的情况下,互补效果仍能对整体性能产生积极影响,最终整体性能的提高取决于误差符号相反的比例和深度估计的精度。

此外,我们选择了具有不同数量的深度预测分支的模型进行翻转和评估。我们发现,当翻转分支的数量接近未翻转分支的数量时,整体性能相应地提高。

图3. 在KITTI验证集上对互补效果的评估
评估指标是针对中等难度车辆类别在0.7 IoU阈值下的AP40(平均精度)。

  • 左图:不同比例的翻转样本实现了不同水平的互补性。
  • 右图:将翻转样本的比例固定为50%,并对翻转的深度分支施加不同幅度的随机扰动。

解析:

  1. 左图的评估显示,当样本的翻转比例变化时,系统的互补性也发生变化。通过对深度预测分支的一部分样本进行翻转,可以增强多个深度分支之间的互补性,从而提高整体检测精度。随着翻转比例的增加,互补性逐渐增强,检测性能也得到相应提升。这表明增加多个预测分支之间的差异有助于提升预测精度。

  2. 右图展示了在翻转比例固定为50%的情况下,通过向翻转的深度分支施加随机扰动来观察系统性能的变化。即便在施加扰动后,互补效果仍然存在,直到扰动幅度达到一定程度(例如2米的扰动,特别是针对KITTI中的车辆数据)。这意味着,即使深度估计精度有所下降,互补性仍可以对整体性能产生积极的影响。

总体来说,图3的结果表明,互补深度预测可以通过增加深度分支之间的差异性来提高检测性能,并且这种效果在一定范围内是稳固的,即使在扰动条件下也是如此。

3.3. 3D Detector with Complementary Depths

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值