第一篇论文【多尺度Transformer激光雷达点云3D物体检测】【练手向】

论文地址

多尺度Transformer激光雷达点云3D物体检测

论文摘要

激光雷达点云3D物体检测,对于小物体如行人、自行车的检测精度较低,容易漏检误检,提出一种多尺度 Transformer激光雷达点云3D物体检测方法MSPT-RCNN(multi-scale point transformer-RCNN),提高点云3D物体检测精度。该方法包含两个阶段,即第一阶段(RPN)和第二阶段(RCNN)。RPN阶段通过多尺度Transformer网络提取点云特征,该网络包含多尺度邻域嵌入模块和跳跃连接偏移注意力模块,获取多尺度邻域几何信息和不同层次全局语义信息,生成高质量初始3D包围盒;在RCNN阶段,引入包围盒内的点云多尺度邻域几何信息,优化了包围盒位置、尺寸、朝向和置信度等信息。实验结果表明,该方法(MSPT-RCNN)具有较高检测精度,特别是对于远处和较小物体,提升更高。MSPT-RCNN通过有效学习点云数据中的多尺度几何信息,提取不同层次有效的语义信息,能够有效提升3D物体检测精度。

论文提出了一种新的基于Transformer的3d目标检测模型MSPT-RCNN,该模型包括2部分,分别为

  1. RPN部分;
  2. RCNN部分;

RPN部分主要是主要用来生成初始bbox,RCNN部分对生成的bbox进行优化。下面详细看下这两个模块都做了什么工作。

MSPT-RCNN

网络整体结构,左侧为RPN,右侧为RCNN结构。
网络整体架构

RPN

多尺度领域嵌入模块

多尺度领域嵌入模块RPN

该模块主要包括两部分内容,两个LBR(Linear, BatchNorm, ReLU)和两个SG(Sampling, Grouping)。LBR部分比较清晰,每个LBR包括线性层、BatchNorm和ReLU三部分,但是这里的SG稍微有点不太好理解。下面介绍下SG部分。

关于SG部分,文中有给出以下几个公式:
{ Δ F ( p ) = c o n c a t q ∈ K N N ( p , P ) ( F ( q ) − F ( p ) ) . ( 7 ) F ~ ( P ) = c o n c a t ( Δ F ( p ) , R P ( F ( p ) , k ) ) . ( 8 ) F s ( p ) = M P ( L B R ( L B R ( F ~ ( p ) ) ) ) . ( 9 ) F M S ( p ) = ∑ i = 20 , 10 , 5 F S i ( p ) . ( 10 ) \begin{cases} \Delta{F(p)} = concat_{q{\in}KNN(p,P)}(F(q)-F(p)). & (7)\\ \tilde{F}(P) = concat(\Delta{F(p)},RP(F(p),k)).&(8)\\ F_s(p)=MP(LBR(LBR(\tilde{F}(p)))).&(9)\\ F_{MS}(p)=\sum_{i=20,10,5}F_{S_i}(p).&(10) \end{cases} ΔF(p)=concatqKNN(p,P)(F(q)F(p)).F~(P)=concat(ΔF(p),RP(F(p),k)).Fs(p)=MP(LBR(LBR(F~(p)))).FMS(p)=i=20,10,5FSi(p).(7)(8)(9)(10)
其中,公式(7)的concat下标结果为KNN搜索箭头右边的矩阵块,右侧将KNN结果和最远点采样结果相减,得到 Δ F ( p ) \Delta{F}(p) ΔF(p),就是矩阵相减右边的矩阵快;公式(8)将矩阵采样右边的矩阵块和最远点采样结果和 Δ F ( p ) \Delta{F}(p) ΔF(p)相加,这里的K是用来保证相加的二者形状一致,结果记为 F

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值