超全汇总 | 基于Camera的3D目标检测算法综述！（单目/双目/伪激光雷达）

最新推荐文章于 2025-09-15 11:22:27 发布

原创

最新推荐文章于 2025-09-15 11:22:27 发布 · 3.9k 阅读

45 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #大数据 #python #计算机视觉 #机器学习

本文详细介绍了基于单目、双目和伪激光雷达数据的3D目标检测算法，包括Deep3DBox、GS3D、SMOKE、FCOS3D、FCOS3D++、MonoFlex、CaDDN、MonoRCNN等方法。这些方法通过深度估计、几何约束和特征融合等方式，从2D图像中恢复3D信息，以实现自动驾驶中的精准目标检测。

点击下方卡片，关注“自动驾驶之心”公众号

ADAS巨卷干货，即可获取

点击进入→自动驾驶之心技术交流群

后台回复【数据集下载】获取计算机视觉近30种数据集！

目前3D目标检测领域方案主要包括基于单目、双目、激光雷达点云、多模态数据融合等方式，本文主要介绍基于单目、双目和伪激光雷达数据的相关算法，下面展开讨论下~

3D检测任务介绍

3D检测任务一般通过图像、点云等输入数据，预测目标相比于相机或lidar坐标系的[x，y，z]、[h，w，l]，[θ，φ，ψ]（中心坐标，box长宽高信息，相对于xyz轴的旋转角度）。

基于单目数据的3D检测

与基于激光雷达的方法相比，仅从图像估计3D边界框的方法面临更大的挑战，因为从2D输入数据恢复3D信息是一个不适定问题。

Deep3DBox

Deep3DBox是论文3D Bounding Box Estimation Using Deep Learning and Geometry中的方法，被CVPR2017收录，首先使用网络回归出相对稳定的3D目标的特性，再利用估计出来的3D特征和由2D bounding box转换为3D bounding box时的几何约束来产生最终的结果。文章先回归方向和尺寸，再结合几何约束产生3D位姿。Deep3DBox能从单目中恢复3D距离尺寸信息，但是它需要学习全连接层的参数，与使用附加信息的方法相比，需要更多的训练数据。GS3D是CVPR2019上的一篇paper，论文发现3D的大致的位置其实是可以从2D检测以及一些先验知识中进行恢复的，(这些先验知识包含了3D-2D的投影矩阵)，因此作者设计了有效的算法，通过2D的检测去获取一个基本的长方体，而这个长方体可以引导我们去确定3D物体的尺寸，称为Guidance。除此之外，基本的3D信息可以被使用（通过使用3D bbox投影之后在2D图像上的surface等细节）。基于上述的观察，作者认为更进一步的分类以及回归的网络对bbox进行refinement对于减少FP以及回归的精度是非常必要的。论文使用CNN预测目标物的2D BBox，观察角，并根据先验知识（物体的长宽高、3D框底面中心在2D下边框中心偏上）和相机内参矩阵求得物体在相机坐标系下的3D坐标，根据3D坐标位置和观察角得到物体可视面，并将其投影至2D特征平面提取特征进一步优化3D预测框结果，如下图所示！

SMOKE

SMOKE是纵目科技在2020年提出的单目3D检测新方法，论文展示了一种新的3D目标检测方法，该方法通过将单个关键点估计与回归3D变量相结合来预测每个检测到的目标3D bounding box。SMOKE延续了centernet的key-point做法，认为2d检测模块是多余的，只保留了3d检测模块，预测投影下来的3dbox中心点和其他属性变量得到3dbox。整体来说SMOKE框架简洁，性能当年还算不错，推理速度快，部署起来方便！