概述:
本论文(点击下载)工作只使用点云数据作为输入。对点云来说,对每个点进行分类就是在做语义分割
- stage-1 直接在点云上学习特征,通过将点云分类为前景和背景(对点云数据这就是语义分割的mask)来生成少量的bbox提议。
- stage-2 将之前得到的提议的点云特征做池化。池化后的点云坐标转化为归一化的坐标,与池化后的特征 和 stage-1得到的分割mask 一起,来学出相对坐标
- 提出了BIN-based loss 回归损失函数,召回率更高。
性能:
截至2018.11.16,在Kitti数据集立体检测榜排名第一。
详细介绍:
1. stage-1 : 基于点云分割的3D RPN
做点云分割的同时,在分割好的前景上生成3D提议。避免了使用大量anchors, 相比于基于anchor的RPN, 召回率更高
1.1 提取点云特征(backbone):
使用PointNet++ 作为骨干网络提取特征。类似的有VoxelNet等
1.2 前景点云分割:
前景点云分割和3D提议生成是同时进行的。
模块输入为提取的点云特征,在segmentation head 输出前景mask,在 box regression head 输出3D提议。
获取分割结果的Ground Truth:对点云来说,分割的真值直接由3D ground truth 提供。
损失函数: focal loss(因为前景点云少,背景点云多,数量不均衡)
阿尔法=0.25,伽马=2
1.3 基于箱子的损失函数(Bin-based loss)
训练时,box regression head 只负责回归前景点的bbox坐标,注意此时,背景点仍然为生成提议框提供信息(由于点云网络的感受野)
box编码方式: (x,y,z,h,w,l,θ)
将每个前景点的周围区域(xz平面)用箱子(bin)划分开以确定提议框的中心点坐标。使用二值分类和交叉熵比直接用SMooth L1 loss 更好。
- 中心点的x,z坐标的loss: 箱子分类loss + 箱子内的残差回归loss。对于y 的loss,由于待检测目标在y轴分布比较集中,直接使用smooth L1 loss 即可。
- 偏向角 θ 的预测:将2π 分为n个bin,和预测x,z一样预测偏向角的bin类别和回归的残差。
- 框尺寸(h,w,l)的预测:直接预测残差res_h§, res_w§, res_l§ ,需要知道训练集的平均目标尺寸。
在inference阶段:
- 对参数 x, z, θ:选取预测置信度最高的箱子的中心得到x、z,加上残差得到最终的x,z.
- 对参数 y, h, w,l:直接在初始值上加上残差得到预测值
总的回归loss:
采用NMS去除多余的提议框:
训练时保留前300个,输入到二阶段网络
inference保留前100个
2.stage-2:二阶段回归
2.1 点云pooling
-
对提议框 b = (x,y,z,h,w, l,θ)进行略微放大得到
b= (x,y,z,h + η,w + η,l + η,θ)
-
保留处于提议框内的点云特征(包括点云坐标xyz,反射强度r,分割mask(0或1),特征向量f(c维))。
-
去除掉在提议框以外的点云
2.2 标准坐标转换
经过pooling的点云输入到stage-2的子网络。
-
坐标转换:新的坐标系的xz轴平行于水平面,x轴指向提议框的头部朝向(较长端?),z轴与x轴垂直。y轴与激光雷达y轴相同。
-
注意,坐标系是根据提议框确定的,而不是GT box
对在提议框内的所有点云进行所在框坐标系下的转换。
2.3 Feature learning
网络输入为:点云坐标p(即xyz),以及特征向量f(c维),注意损失了深度信息,为此,加入距离:
d§ = ( (x§2 + (y§)2 + (z§)2 )^0.5 到点云特征中。
- 获得local features:将特征(p,r,m,d)连接并输入到全卷积网络,得到与global feature(即特征向量f) 相同维度的local feature
- local feature 与 global feature 连接,然后送入另一个网络,得到用于输出cls和reg的特征向量
2.4 二阶段loss
与gt box的IOU大于0.55的提议框将和该GT box一起计算loss。
坐标均经过标准化:
提议框的x,z的 bin loss 和 res loss 与stage-1相同,但是搜索范围s更小:
对参数 y, h, w,l:只有res loss
对于偏向角
假设其值在[−π/4, π/4],(因为IOU>0.55) 因此将该范围直接按照步长w等分,最后得到的loss:
stage-2 total loss:
NMS
采用 oriented NMS :去除在鸟瞰图下IOU大于0.01的框。