MonoDETR: Depth-guided Transformer for Monocular 3D Object Detection论文解读

最新推荐文章于 2025-01-14 09:34:48 发布

Unsunshine_Bigboy_?

最新推荐文章于 2025-01-14 09:34:48 发布

阅读量727

点赞数 4

CC 4.0 BY-SA版权

文章标签： transformer 目标检测深度学习

本文链接：https://blog.youkuaiyun.com/weixin_46872424/article/details/144307584

1. 引言

要解决什么问题，首先，这是一个单目基于DETR的3D检测框架，与其他单目检测框架不同的点在于：①由于是基于DETR的检测框架，不需要多余的NMS后处理操作；②前面的单目3D检测一般是用2D的思想，首先通过2D特征预测物体在图片上的中心点，然后通过聚合中心点周围的特征再预测出3D目标的参数，这样的效果有限；其次另外一种思想是通过对图片深度的预测，通过深度+相机矩阵得到每个像素点3D坐标，然后在3D空间下进行3D物体检测，计算量大。

2. 方法

主要创新点在红色框部分，通过将特征转化为深度特征，然后和Query进行交叉注意力机制计算，使得3D目标检测效果更好。为了更好地辅助backbone出来的特征具有更好的深度信息，在这部分引入了一个深度图的监督，这也是本文的核心创新点，通过深度图的监督，来引导Backbone的特征同时兼具视觉特征和深度特征，从而服务于后续的3D检测任务。

深度图这部分和以往每个像素点的深度图不同，这部分只对2D平面上的目标进行深度计算，具体计算方法：①预设一个深度的最大值和最小值；②然后将最小值到最大值之间平均地分出K+1个区间，代表不同的深度层；③为每个目标深度d计算当前属于哪个区间，如果有像素点同时属于多个区间，取离相机最近的那个（d最小的那个）；④背景区域属于第K+1个区间不用计算深度。这样就可以得到一张对于每个目标进行标记的深度图。个人理解：这部分其实更像是引导模型在2D图片中辅助区分不同深度目标的边界，从而将目标和背景进行分离，为后续检测提供支持。具体标签在训练的时候这样标记还是比较麻烦的，应该也是从一张已有的深度图进行后处理得到，处理过程还是

最低0.47元/天解锁文章

200万优质内容无限畅学