Abstract
单目 3D 目标检测因其能够以低成本从单张图像准确获取目标的 3D 位置而受到广泛关注。在这一任务中,深度估计(depth estimation)是一个至关重要但极具挑战性的子任务,因为从 2D 到 3D 的映射存在病态问题(ill-posedness)。许多方法尝试利用多个局部深度线索(如目标高度、关键点等),然后将目标的深度估计建模为多个深度预测的集合,以缓解单一深度信息的不足。然而,现有方法中多个深度预测的误差往往具有相同的符号(即误差方向一致),导致它们难以相互抵消,从而限制了组合深度估计的整体精度。
核心贡献:
为了解决这一问题,本文提出了两项新设计,增强深度预测之间的互补性(complementarity of depths):
- 新增“互补深度”预测分支(Complementary Depth)该分支使用来自整个图像的全局深度线索,而不仅仅是局部线索,从而减少深度预测之间的相似性,提高预测的多样性。
- 利用几何关系实现深度预测互补充分利用多个深度线索之间的几何关系,使其在形式上具有互补性,从而提高整体的深度估计精度。
1. Introduction
背景与挑战
3D 目标检测是学术界和工业界的重要研究课题,它能够赋予非人类智能(如自动驾驶、机器人等)感知 3D 世界的能力。
与基于 LiDAR [11, 27, 28, 34] 和双目立体视觉(stereo-based)[12, 13, 23, 30] 的方法相比,单目 3D 目标检测(monocular 3D object detection)因其低成本和简单配置[15, 24] 而受到了广泛关注。然而,其 3D 目标定位精度显著低于 LiDAR 和双目立体视觉方法,成为制约自动驾驶、机器人等自动化技术发展的瓶颈。
单目 3D 目标检测的深度估计问题
近年来,许多单目 3D 目标检测算法认识到,深度估计不准确[15, 22, 25, 40, 45] 是导致 3D 目标定位精度受限的主要因素。
- 现有方法通常基于 CenterNet 方案 [42],利用多个局部深度线索(如目标高度、关键点等),并将深度估计建模为多个深度预测的组合,以缓解单一深度信息的不足。
- 例如:
- MonoFlex [40]:从直接深度估计(direct estimate)和目标高度(object height)中提取深度线索,并通过加权平均将其组合成最终深度估计。
- MonoDDE [15]:在此基础上,进一步利用目标视角点(object perspective point)提供的线索进行优化。
现有方法的局限性——深度预测的耦合现象(Coupling Phenomenon)
在 KITTI 数据集的实验[7] 表明,现有 95% 的多深度预测组合误差具有相同的符号。换句话说,多个预测的深度值往往分布在真实深度(ground truth)的同一侧(如图 1(a) 所示)。这意味着:
- 误差无法相互抵消,导致组合深度的整体精度提升受限。
- 这种“耦合现象”来源于:
- 现有方法主要依赖局部深度线索,它们都是从目标周围的局部特征中提取的,因此预测结果高度相似,误差方向趋同。
核心贡献:提升深度估计的互补性(Complementarity)
为了解决深度预测耦合问题,我们提出了一种增强深度互补性的策略。互补性(Complementarity)指的是:
- 预测结果不仅要具有高精度,还需要具备不同的误差符号,从而在组合时相互抵消,提高整体深度估计精度。
- 为此,我们提出了两项创新设计:
1️⃣ 新增“互补深度”预测分支(Complementary Depth)
现有方法 主要依赖局部深度线索,而我们的方法 额外引入全局深度线索(global depth clues):
- 利用整幅图像(而非仅局部目标)提供的深度信息,降低不同深度预测之间的相似性。
- 这一分支基于以下事实:同一图像中的所有目标通常位于同一平面上,因此可以利用全局信息提升深度预测的多样性。
2️⃣ 充分利用几何关系,提高深度预测的互补性
为了进一步增强互补性,我们利用多个深度线索之间的几何关系。
- 关键思想:相同几何量(如 3D 高度 H)的误差,可能对不同深度分支产生相反的影响。
- 例如,如图 1(b) 所示:
- 由于 3D 高度 H 被低估,导致深度 Z₁ 产生负误差(预测值小于真实值)。
- 但在另一条深度预测分支 Z₂ 中,由于 Z₂ 结合了新的全局线索 y₉ₗₒ,与 Z₁ 的误差方向相反,因此 Z₂ 产生正误差(预测值大于真实值)。
- 这样,基于 H 产生的几何关系使得 Z₁ 和 Z₂ 在形式上具有互补性,从而提高整体深度估计精度。
最终方法——MonoCD:基于互补深度的单目 3D 目标检测
基于上述两项创新,我们提出了一种新的单目 3D 目标检测器——MonoCD(Monocular 3D Object Detector with Complementary Depths)。
- MonoCD 通过互补深度机制,弥补了现有多深度预测方法在互补性上的缺陷。
- 核心贡献总结如下:
- 首次指出 现有单目 3D 目标检测方法存在深度预测耦合问题,这一问题限制了组合深度的精度,因此我们提出提升深度预测的互补性来缓解该问题。
- 提出新增“互补深度”预测分支,利用全局深度线索,并充分挖掘几何关系,提高深度预测的多样性与互补性。
- 在 KITTI 数据集上进行评估,结果表明 MonoCD 在不引入额外数据的情况下,达到了 SOTA(最先进)性能。此外,互补深度模块是一个轻量级、可插拔(plug-and-play)的设计,可增强多种现有单目 3D 目标检测器。
2. Related work
2.1. 基于中心点的单目 3D 目标检测
近年来,许多研究 [5, 16, 20, 36, 41, 43] 都基于中心点(Center-based)检测范式,并扩展自CenterNet [42]。
CenterNet 简介
- CenterNet 最初用于 2D 目标检测,是一种**无锚框(anchor-free)**检测方法。
- 该方法的核心思想是:将 3D 目标框的所有属性转换为其中心点进行估计,从而简化检测流程,提高检测效率。
基于 CenterNet 的单目 3D 目标检测方法
- SMOKE [18]:
- 继承了 CenterNet 框架,并提出可以省略 2D 目标框估计,直接进行 3D 预测。
- MonoDLE [21]:
- 发现 2D 目标框的估计有助于 3D 目标属性预测。
- 进一步证明深度误差是限制单目 3D 目标检测精度的主要原因。
- MonoCon [17]:
- 发现围绕目标中心点添加辅助学习任务可以提升模型的泛化性能。
局限性:缺乏全局信息,导致 3D 预测耦合
尽管基于中心点的框架具有诸多优势,但也存在固有的局限性:
- 所有 3D 预测属性都高度依赖目标中心点的局部信息,导致特征表达局限于局部区域。
- 忽略了对全局信息的利用,导致 3D 预测属性(如深度、尺寸、方向等)之间存在耦合问题,影响检测精度。
2.2. Transformer-based Monocular 3D Detector
借助注意力机制(attention mechanism)[32] 的非局部编码能力,以及其在目标检测领域的发展 [2],近年来多个基于 Transformer 的单目 3D 目标检测方法被提出,以增强全局感知能力。
现有基于 Transformer 的单目 3D 目标检测方法
-
MonoDTR [8]:
- 采用深度位置编码(Depth Position Encoding),将全局深度信息注入 Transformer,以引导 3D 目标检测。
- 缺点:需要LiDAR 作为辅助监督,依赖额外数据,限制了其适用性。
-
MonoDETR [39]:
- 通过前景目标标签(Foreground Object Labels)来预测前景深度图(Foreground Depth Maps),从而实现深度指导。
- 不同于 MonoDTR,它不依赖 LiDAR,但仍然需要额外的前景标签信息。
-
MonoATT [44]:
- 为了提升推理效率,提出了一种自适应 Token Transformer(Adaptive Token Transformer)。
- 该方法可以为图像中更重要的区域分配更精细的 Token,提高计算资源的利用效率。
基于 Transformer 方法的局限性
尽管上述方法在 3D 目标检测中取得了良好效果,但仍存在以下明显缺陷:
- 计算复杂度高(High Computational Complexity):
- Transformer 需要计算全局注意力,导致计算量庞大,不利于实时应用。
- 推理速度慢(Slow Inference):
- 高计算复杂度使得 Transformer 在实际自动驾驶场景中延迟较高,难以满足低延迟需求。
当前的研究空白
目前,仍然缺乏一种既能综合全局信息,又能在真实自动驾驶场景下保持低延迟的单目 3D 目标检测方法。
2.3. Estimation of Multi-Depth
除了直接使用深度神经网络预测物体深度外,许多近期研究进一步拓展了深度估计算法,间接预测与深度相关的几何线索,以提高深度估计的精度。
现有多深度估计方法
-
数学先验 & 不确定性建模(Mathematical Priors & Uncertainty Modeling)
- [20, 29] 采用数学先验和不确定性建模,通过3D 高度与 2D 高度的比例来恢复深度信息。
-
MonoFlex [40]
- 在上述方法的基础上,进一步扩展几何深度估计,利用**3D 边界框的支撑线(supporting lines)**计算三组深度信息。
- 采用不确定性权重来组合多个深度预测,得到最终的深度值。
-
MonoGround [25]
- 引入局部地面平面先验(local ground plane prior),利用目标底部平面随机采样密集点,增强深度监督信息。
-
MonoDDE [15]
- 结合关键点信息(keypoint information),将深度预测分支扩展至 20 条,强调深度多样性的重要性。
现有方法的局限性:缺乏深度互补性(Complementarity)
- 当前的多深度估计方法很少关注不同深度信息之间的互补性。
- 几何线索(如 2D/3D 高度)中的误差会累积,从而导致深度估计的系统性误差。
- 如果缺乏有效的互补性机制,现有深度估计误差无法相互抵消,影响最终的深度预测精度。
3. Approach
3.1. 问题定义(Problem Definition)
3.2. 互补深度的影响(The Effect of Complementary Depths)
为了证明互补深度(Complementary Depths)的有效性,我们从数学角度分析其优越性。
图 3. 在 KITTI 验证集上评估互补深度的效果。
评估指标为 AP40,针对 0.7 IoU 阈值下的中等难度(moderate)Car 类别。
- 左图:不同比例的翻转样本实现了不同程度的互补性。
- 右图:固定翻转样本的比例为 50%,并在翻转的深度预测分支上施加不同幅度的随机扰动。