✨✨ 欢迎大家来访Srlua的博文(づ ̄3 ̄)づ╭❤~✨✨🌟🌟 欢迎各位亲爱的读者,感谢你们抽出宝贵的时间来阅读我的文章。
我是Srlua小谢,在这里我会分享我的知识和经验。🎥
希望在这里,我们能一起探索IT世界的奥妙,提升我们的技能。🔮
记得先点赞👍后阅读哦~ 👏👏
📘📚 所属专栏:传知代码论文复现
欢迎访问我的主页:Srlua小谢 获取更多信息和资源。✨✨🌙🌙
目录
本文所有资源均可在该地址处获取。
概述

多视角图像中的3D目标检测由于其在自动驾驶系统中的低成本而具有吸引力。
- 在DETR中,每个对象查询表示一个对象,与Transformer解码器中的2D特征交互以产生预测的结果。
- 在DETR3D中,由对象查询预测的3D参考点通过相机参数投影回图像空间,并对2D特征进行采样,以与解码器中的对象查询进行交互。
- PETR通过将3D位置嵌入编码到2D图像特征中生成3D位置感知特征,对象查询直接与3D位置感知特征交互,并输出3D检测结果。
PETR体系结构具有许多优点,它既保留了原始DETR的端到端的方式,又避免了复杂的2D到3D投影和特征采样。
模型结构

给定来自N个视角的图像I={Ii∈R3×HI×WI,i=1,2,...,N}I={Ii∈R3×HI×WI,i=1,2,...,N},这些图像被输入到主干网络中,生成2D多视图特征F2d=Fi2d∈RC×HF×WF,i=1,2,...,NF2d=Fi2d∈RC×HF×WF,i=1,2,...,N。在3D坐标生成器中,相机视锥空间首先被离散化为三维网格,然后通过相机参数对网格坐标进行变化,生成3D世界空间中的坐标。3D坐标和2D多视图特征被输入到3D位置编码器中,产生3D位置感知特征F3d=Fi3d∈RC×HF×WF,i=1,2,...,NF3d=Fi3d∈RC×HF×WF,i=1,2,...,N。3D特征进一步输入到Transformer解码器,并与查询生成器生成的对象查询进行交互。更新后的对象查询用于预测对象类和3D边界框。
3D坐标生成器
为了构建2D图像和3D空间之间的关系,PETR将相机视锥空间中的点投影到3D空间。PETR首先将相机视锥空间离散化以生成大小为(WF,HF,D)(WF,HF,D)
的网格。网格中的每个点可以表示为pjm=(uj×dj,vi×dj,dj,1)Tpjm=(uj×dj,vi×dj,dj,1)T,其中(uj,vj)(uj,vj)
是图像中的像素坐标,djdj是沿与图像平面正交的轴的深度值。由于网格由不同的视觉共享,因此可以通过3D逆投影来计算3D世界空间中对应的3D坐标
pi,j3d=(xi,j,yi,j,zi,j,1)Tpi,j3d=Ki−1pjmpi,j3d=(xi,j,yi,j,zi,j,1)Tpi,j3d=Ki−1pjm
其中Ki∈R4×4Ki∈R4×4是第i个视图的变换矩阵,它建立了从3D空间到相机视锥空间的转换。所有视图的3D坐标在变换后覆盖场景的全景图。PETR进一步对3D坐标进行归一化。
{xi,j=(xi,j−xmin)/(xmax−xmin)yi,j=(yi,j−ymin)/(ymax−ymin)zi,j=(zi,j−zmin)/(zmax−zmin)⎩⎪⎪⎨⎪⎪⎧xi,j=yi,j=zi,j=(xi,j−xmin)/(xmax−xmin)(yi,j−ymin)/(ymax−ymin)(zi,j−zmin)/(zmax−zmin)
其中[xmin,ymin,zmin,xmax,ymax,zmax][xmin,ymin,zmin,xmax,ymax,zmax]是3D世界空间中的感兴趣区域(RoI),HF×WF×DHF×WF×D点的归一化坐标最终转置为P3d={Pi3d∈R(D×4)×HF×WF,i=1,2,…,N}P3d={Pi3d∈R(D×4)×HF×WF,i=1,2,…,N}。
3D位置编码器

3D位置编码的目的是通过将2D图像特征与3D位置信息相关联来获得3D特征,3D位置编码器可以公式化为
Fi3d=ψ(Fi2d,Pi3d),i=1,2,…,NFi3d=ψ(Fi2d,Pi3d),i=1,2,…,N
ψψ的方法如上图所示,给定2D特征F2dF2d和3D坐标P3dP3d,P3dP3d首先输入到一个多层感知机网络中转换到3D位置编码(PE)之后,3D特征通过一个1x1的卷积层和3D PE相加形成3D位置感知特征。最终,PETR将3D位置感知特征作为transformer解码器中的key。
查询生成器和解码器
查询生成器
原始DETR直接使用一组可学习参数作为初始对象查询,可变形DETR和DETR3D基于初始化的对象查询预测参考点。为了缓解3D场景中的收敛困难,PETR首先在3D世界空间中初始化一组可学习的锚点,这些锚点具有从0到1的均匀分布。然后将3D锚点的坐标输入到具有两个线性层的小型MLP网络,生成初始对象查询Q0Q0。
解码器
对于解码器网络,PETR遵循DETR中的标准Transformer解码器,它包含了L个解码层,PETR将解码层中的交互过程公式化为Ql=Ωl(F3d,Ql−1),l=1,…,LQl=Ωl(F3d,Ql−1),l=1,…,L。在每个解码器层中,对象查询通过多头注意力和前馈网络与3D位置感知特征交互,迭代交互后,更新后的对象查询具有高级表示,可用于预测相应的对象。
演示效果
其中红色边界框表示自车车辆
Radar结果
PETR模型:多视角图像3D目标检测



最低0.47元/天 解锁文章
224

被折叠的 条评论
为什么被折叠?



