论文地址
论文摘要
激光雷达点云3D物体检测,对于小物体如行人、自行车的检测精度较低,容易漏检误检,提出一种多尺度 Transformer激光雷达点云3D物体检测方法MSPT-RCNN(multi-scale point transformer-RCNN),提高点云3D物体检测精度。该方法包含两个阶段,即第一阶段(RPN)和第二阶段(RCNN)。RPN阶段通过多尺度Transformer网络提取点云特征,该网络包含多尺度邻域嵌入模块和跳跃连接偏移注意力模块,获取多尺度邻域几何信息和不同层次全局语义信息,生成高质量初始3D包围盒;在RCNN阶段,引入包围盒内的点云多尺度邻域几何信息,优化了包围盒位置、尺寸、朝向和置信度等信息。实验结果表明,该方法(MSPT-RCNN)具有较高检测精度,特别是对于远处和较小物体,提升更高。MSPT-RCNN通过有效学习点云数据中的多尺度几何信息,提取不同层次有效的语义信息,能够有效提升3D物体检测精度。
论文提出了一种新的基于Transformer的3d目标检测模型MSPT-RCNN,该模型包括2部分,分别为
- RPN部分;
- RCNN部分;
RPN部分主要是主要用来生成初始bbox,RCNN部分对生成的bbox进行优化。下面详细看下这两个模块都做了什么工作。
MSPT-RCNN
网络整体结构,左侧为RPN,右侧为RCNN结构。
RPN
多尺度领域嵌入模块
该模块主要包括两部分内容,两个LBR(Linear, BatchNorm, ReLU)和两个SG(Sampling, Grouping)。LBR部分比较清晰,每个LBR包括线性层、BatchNorm和ReLU三部分,但是这里的SG稍微有点不太好理解。下面介绍下SG部分。
关于SG部分,文中有给出以下几个公式:
{ Δ F ( p ) = c o n c a t q ∈ K N N ( p , P ) ( F ( q ) − F ( p ) ) . ( 7 ) F ~ ( P ) = c o n c a t ( Δ F ( p ) , R P ( F ( p ) , k ) ) . ( 8 ) F s ( p ) = M P ( L B R ( L B R ( F ~ ( p ) ) ) ) . ( 9 ) F M S ( p ) = ∑ i = 20 , 10 , 5 F S i ( p ) . ( 10 ) \begin{cases} \Delta{F(p)} = concat_{q{\in}KNN(p,P)}(F(q)-F(p)). & (7)\\ \tilde{F}(P) = concat(\Delta{F(p)},RP(F(p),k)).&(8)\\ F_s(p)=MP(LBR(LBR(\tilde{F}(p)))).&(9)\\ F_{MS}(p)=\sum_{i=20,10,5}F_{S_i}(p).&(10) \end{cases} ⎩⎪⎪⎪⎨⎪⎪⎪⎧ΔF(p)=concatq∈KNN(p,P)(F(q)−F(p)).F~(P)=concat(ΔF(p),RP(F(p),k)).Fs(p)=MP(LBR(LBR(F~(p)))).FMS(p)=∑i=20,10,5FSi(p).(7)(8)(9)(10)
其中,公式(7)的concat下标结果为KNN搜索箭头右边的矩阵块,右侧将KNN结果和最远点采样结果相减,得到 Δ F ( p ) \Delta{F}(p) ΔF(p),就是矩阵相减右边的矩阵快;公式(8)将矩阵采样右边的矩阵块和最远点采样结果和 Δ F ( p ) \Delta{F}(p) ΔF(p)相加,这里的K是用来保证相加的二者形状一致,结果记为 F