【DETR3D】3D目标检测

最新推荐文章于 2025-11-11 21:10:19 发布

原创

最新推荐文章于 2025-11-11 21:10:19 发布 · 854 阅读

24 ·

CC 4.0 BY-SA版权

文章标签：

#python #人工智能

✨✨ 欢迎大家来访Srlua的博文（づ￣3￣）づ╭❤～✨✨

🌟🌟 欢迎各位亲爱的读者，感谢你们抽出宝贵的时间来阅读我的文章。

我是Srlua小谢，在这里我会分享我的知识和经验。🎥

希望在这里，我们能一起探索IT世界的奥妙，提升我们的技能。🔮

记得先点赞👍后阅读哦~ 👏👏

📘📚 所属专栏：传知代码论文复现

欢迎访问我的主页：Srlua小谢获取更多信息和资源。✨✨🌙🌙

本文所有资源均可在该地址处获取。

概述

DETR3D介绍了一种多摄像头的三维目标检测的框架。与现有的直接从单目图像中估计3D边界框或者使用深度预测网络从2D信息中生成3D目标检测的输入相比，DETR3D直接在3D空间中进行预测。DETR3D从多个相机图像中提取2D特征，使用3D对象查询的稀疏集来索引这些2D特征。使用相机变换矩阵将3D位置链接到多视图图像。最后对每个目标单独进行边界框预测，使用集合到集合的损失来衡量真值和预测之间的差异。

模型结构

DETR3D架构的输入是一组投影矩阵（内参和相对外参的组合）和已知的相机收集的RGB图像，为场景中的物体输出一组3D边界框参数。与过去的方法相比，DETR3D基于一些高级需求构建体系结构。

DETR3D将3D信息合并到中间计算中，而不是在图像平面上执行纯粹的2D计算
DETR3D不估计密集的三维场景几何，避免相关的重建误差
DETR3D避免了NMS等后处理步骤

如上图所示，DETR3D使用一个新的集合预测模块来解决这些问题，该模块通过在2D和3D计算之间交替来连接2D特征提取和3D边界框预测。我们的模型包括三个关键部分：
首先，遵循2D视觉中的常见做法，它使用共享ResNet主干从相机图像中提取特征。这些特征可以选择性的由特征金字塔网络增强
一个检测头，以集合感知的方式将计算出的2D特征连接到一组3D边界框预测中。检测头的每一层都是从一组稀疏的对象查询开始，这些查询是从数据中学习的。每个对象查询编码一个3D位置，该位置被投影到相机平面上，用于通过双线性插值收集图像特征。DETR3D使用多头注意力通过结合对象交互来细化对象查询。该层重复多次，在特征采样和对象查询细化之间交替。
DETR3D采用了一个集合到集合的损失来训练网络

特征学习

DETR3D的输入有图像 I={im1,…,imK}⊂RHim×Wim×3I={im1,…,imK}⊂RHim×Wim×3，相机矩阵 T={T1,…,TK}⊂R3×4T={T1,…,TK}⊂R3×4，地面真实边界框B={b1,…,bj,…,bM}⊂R9B={b1,…,bj,…,bM}⊂R9，和分类类别C={c1,…,cj,…,cM}⊂ZC={c1,…,cj,…,cM}⊂Z，每一个边界框包含BEV视角下的位置、大小、朝向角和速度。DETR3D旨在从这些图像预测这些框及其标签。图像数据经过ResNet和FPN网络被编码为四组特征F1,F2,F3,F4F1,F2,F3,F4，每组特征Fk={fk1,…,fk6}⊂RH×W×CFk={fk1,…,fk6}⊂RH×W×C对应六个不同视角下图像的某一级特征。这些多尺度特征为识别不同大小的物体提供了丰富的信息。

检测头

在相机输入中检测物体的现有方法通常采用自下而上的方法，该方法预测每张图像的密集边界框，过滤图像之间的冗余框，并在后处理步骤中汇总相机之间的预测。这种范式由两个关键的缺点：密集边界框预测需要精确的深度感知，这本身就是一个具有挑战性的问题；基于NMS的冗余删除和聚合是不可并行化的操作，会引入大量的推理开销。
DETR3D采用下面描述的自顶向下的目标检测头来解决这些问题。它使用L层基于集合的计算从2D特征图中产生边界框估计，每层都遵循如下的步骤：