多视图3D目标检测位置嵌入变换

PETR模型：多视角图像3D目标检测

最新推荐文章于 2025-04-19 17:04:37 发布

原创

最新推荐文章于 2025-04-19 17:04:37 发布 · 909 阅读

50 ·

CC 4.0 BY-SA版权

文章标签：

#python #人工智能

✨✨ 欢迎大家来访Srlua的博文（づ￣3￣）づ╭❤～✨✨

🌟🌟 欢迎各位亲爱的读者，感谢你们抽出宝贵的时间来阅读我的文章。

我是Srlua小谢，在这里我会分享我的知识和经验。🎥

希望在这里，我们能一起探索IT世界的奥妙，提升我们的技能。🔮

记得先点赞👍后阅读哦~ 👏👏

📘📚 所属专栏：传知代码论文复现

欢迎访问我的主页：Srlua小谢获取更多信息和资源。✨✨🌙🌙

本文所有资源均可在该地址处获取。

概述

多视角图像中的3D目标检测由于其在自动驾驶系统中的低成本而具有吸引力。

在DETR中，每个对象查询表示一个对象，与Transformer解码器中的2D特征交互以产生预测的结果。
在DETR3D中，由对象查询预测的3D参考点通过相机参数投影回图像空间，并对2D特征进行采样，以与解码器中的对象查询进行交互。
PETR通过将3D位置嵌入编码到2D图像特征中生成3D位置感知特征，对象查询直接与3D位置感知特征交互，并输出3D检测结果。

PETR体系结构具有许多优点，它既保留了原始DETR的端到端的方式，又避免了复杂的2D到3D投影和特征采样。

模型结构

给定来自N个视角的图像I={Ii∈R3×HI×WI,i=1,2,...,N}I={Ii∈R3×HI×WI,i=1,2,...,N}，这些图像被输入到主干网络中，生成2D多视图特征F2d=Fi2d∈RC×HF×WF,i=1,2,...,NF2d=Fi2d∈RC×HF×WF,i=1,2,...,N。在3D坐标生成器中，相机视锥空间首先被离散化为三维网格，然后通过相机参数对网格坐标进行变化，生成3D世界空间中的坐标。3D坐标和2D多视图特征被输入到3D位置编码器中，产生3D位置感知特征F3d=Fi3d∈RC×HF×WF,i=1,2,...,NF3d=Fi3d∈RC×HF×WF,i=1,2,...,N。3D特征进一步输入到Transformer解码器，并与查询生成器生成的对象查询进行交互。更新后的对象查询用于预测对象类和3D边界框。

3D坐标生成器

为了构建2D图像和3D空间之间的关系，PETR将相机视锥空间中的点投影到3D空间。PETR首先将相机视锥空间离散化以生成大小为(WF,HF,D)(WF,HF,D)
的网格。网格中的每个点可以表示为pjm=(uj×dj,vi×dj,dj,1)Tpjm=(uj×dj,vi×dj,dj,1)T，其中(uj,vj)(uj,vj)
是图像中的像素坐标，djdj是沿与图像平面正交的轴的深度值。由于网格由不同的视觉共享，因此可以通过3D逆投影来计算3D世界空间中对应的3D坐标

pi,j3d=(xi,j,yi,j,zi,j,1)Tpi,j3d=Ki−1pjmpi,j3d=(xi,j,yi,j,zi,j,1)Tpi,j3d=Ki−1pjm

其中Ki∈R4×4Ki∈R4×4是第i个视图的变换矩阵，它建立了从3D空间到相机视锥空间的转换。所有视图的3D坐标在变换后覆盖场景的全景图。PETR进一步对3D坐标进行归一化。

{xi,j=(xi,j−xmin)/(xmax−xmin)yi,j=(yi,j−ymin)/(ymax−ymin)zi,j=(zi,j−zmin)/(zmax−zmin)⎩⎪⎪⎨⎪⎪⎧xi,j=yi,j=zi,j=(xi,j−xmin)/(xmax−xmin)(yi,j−ymin)/(ymax−ymin)(zi,j−zmin)/(zmax−zmin)

其中[xmin,ymin,zmin,xmax,ymax,zmax][xmin,ymin,zmin,xmax,ymax,zmax]是3D世界空间中的感兴趣区域（RoI），HF×WF×DHF×WF×D点的归一化坐标最终转置为P3d={Pi3d∈R(D×4)×HF×WF,i=1,2,…,N}P3d={Pi3d∈R(D×4)×HF×WF,i=1,2,…,N}。

3D位置编码器

3D位置编码的目的是通过将2D图像特征与3D位置信息相关联来获得3D特征,3D位置编码器可以公式化为

Fi3d=ψ(Fi2d,Pi3d),i=1,2,…,NFi3d=ψ(Fi2d,Pi3d),i=1,2,…,N

ψψ的方法如上图所示，给定2D特征F2dF2d和3D坐标P3dP3d,P3dP3d首先输入到一个多层感知机网络中转换到3D位置编码（PE）之后，3D特征通过一个1x1的卷积层和3D PE相加形成3D位置感知特征。最终，PETR将3D位置感知特征作为transformer解码器中的key。

查询生成器和解码器

查询生成器
原始DETR直接使用一组可学习参数作为初始对象查询，可变形DETR和DETR3D基于初始化的对象查询预测参考点。为了缓解3D场景中的收敛困难，PETR首先在3D世界空间中初始化一组可学习的锚点，这些锚点具有从0到1的均匀分布。然后将3D锚点的坐标输入到具有两个线性层的小型MLP网络，生成初始对象查询Q0Q0。
解码器
对于解码器网络，PETR遵循DETR中的标准Transformer解码器，它包含了L个解码层，PETR将解码层中的交互过程公式化为Ql=Ωl(F3d,Ql−1),l=1,…,LQl=Ωl(F3d,Ql−1),l=1,…,L。在每个解码器层中，对象查询通过多头注意力和前馈网络与3D位置感知特征交互，迭代交互后，更新后的对象查询具有高级表示，可用于预测相应的对象。