PointPillars: Fast Encoders for Object Detection from Point Clouds 阅读笔记

byzy

已于 2022-07-27 22:00:31 修改

阅读量510

点赞数

CC 4.0 BY-SA版权

分类专栏：激光雷达3D目标检测文章标签：目标检测自动驾驶深度学习

于 2022-07-26 16:38:57 首次发布

本文链接：https://blog.youkuaiyun.com/weixin_45657478/article/details/125985548

激光雷达3D目标检测专栏收录该内容

19 篇文章

订阅专栏

PointPillars是一种使用2D卷积实现端到端学习的LiDAR目标检测方法，其性能达到SotA水平，甚至超越某些基于激光雷达+图像的方案。它通过将点云转换为伪图像，利用2D卷积网络提取特征，最后用SSD检测头进行3D边界框预测。在实施中，采用特定的损失函数、数据增强策略和匹配策略，以提高检测效果和速度。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

原文链接：https://arxiv.org/pdf/1812.05784.pdf

1 引言

PointPillars是端到端学习方法，仅需要2D卷积。性能可达SotA（甚至超过部分基于激光雷达+图像的方法），且速度快。

2 网络

由3个部分组成：特征编码器（将点云转化为伪图像）、2D卷积主干（将伪图像处理为高级表达）、检测头（检测和回归3D边界框）。

2.1 点云到伪图像

先将点云在 $x\textup{-}y$ 平面离散化为等大小的网格，得到柱体集合。然后使用柱体内所有点的中心坐标 $(x_c,y_c,z_c)$ 和与柱体中心的偏移量 $(x_p,y_p)$ 增强所有点，则包含原来的坐标和反射强度 $(x,y,z,r)$ ，所有点都有 $D=9$ 个维度。

为便于后面处理，设置 $P$ 为每个点云的非空体素数， $N$ 每个柱体内的点数。如果一个柱体内的点大于 $N$ ，则随机采样柱体内的点；如果一个柱体内的点少于 $N$ ，则进行零填充。这样得到 $(D,P,N)$ 维度的张量。

然后使用简化的PointNet处理每个柱体内的点，即使用线性层（ $1\times1$ 卷积）+BN+ReLU将各点维度变为 $C$ （此时张量为 $(C,P,N)$ 维度），再沿通道维度最大池化，得到 $(C,P)$ 维度的张量。最后将各特征还原到原来的柱体位置，生成 $(C,H,W)$ 的伪图像。