1.概括
优点: 我们提出了一种性能更好的的自动驾驶的二维观测和三维预测之间的转换,它不依赖于密集深度预测的模块。 我们的框架DETR3D以自上而下的方式解决了这个问题。 通过几何反投影和摄像机变换矩阵,将二维特征提取和三维目标预测联系起来。 我们的方法从一个稀疏的对象先验集开始,在数据集中共享并端到端学习。不需要任何后处理,如非最大抑制(NMS),提高效率和减少重复手工设计的方法清洗其输出。
2.框架
2.1 总体预览
- 核心动机: 从3D到2D构建BEV空间,物体要什么我们拿什么,并不需要全部的BEV空间特征
- 主体结构: 利用3d object query 进行一个2d image feature查询
核心:并没有完整的表示出整个BEV空间,不需要完整的构建BEV空间,而是一种稀疏表示,效率较高
2.2 输入与输出
- 输入:Multi-view lmages withCamera Extrinsics &intrinsics (多视角图像)
- 输出:3D 检测边界框