NeurIPS 2023 | RangePerception：Range View3D检测新思路！-优快云博客

点击下方卡片，关注“自动驾驶之心”公众号

ADAS巨卷干货，即可获取

论文作者 | 汽车人

编辑 | 自动驾驶之心

“
原标题：RangePerception: Taming LiDAR Range View for Efficient and Accurate 3D Object Detection

论文链接：https://openreview.net/pdf?id=9kFQEJSyCM

作者单位：上海人工智能实验室复旦大学
”

论文思路：

基于 LiDAR 的 3D 检测方法目前使用鸟瞰图 (BEV) 或 range view (RV) 作为主要基础。前者依赖体素化和 3D 卷积，导致训练和推理过程效率低下。相反，基于 RV 的方法由于其紧凑性和与 2D 卷积的兼容性而表现出更高的效率，但其性能仍然落后于基于 BEV 的方法。为了消除这种性能差距，同时保持基于 RV 的方法的效率，本研究提出了一种高效且准确的基于 RV 的 3D 目标检测框架，称为 RangePerception。通过细致的分析，本研究确定了阻碍现有基于 RV 的方法性能的两个关键挑战：1）输出中使用的 3D 世界坐标与输入中使用的 2D range image 坐标之间存在自然域差距(natural domain gap)，导致从 range images 中提取信息变得困难；2）原始 range image 存在视觉损坏问题(vision corruption issue)，影响位于 range image 边缘的目标的检测精度。为了解决上述关键挑战，本文提出了两种名为 Range Aware Kernel (RAK) 和 Vision Restoration Module (VRM) 的新颖算法，它们促进了 range image 表示和世界坐标 3D 检测结果的信息流。在 RAK 和 VRM 的帮助下，在 Waymo Open Dataset 上，与之前最先进的基于 RV 的方法 RangeDet 相比，本文的 RangePerception 的平均 L1/L2 AP 提高了 3.25/4.18。RangePerception 首次作为基于 RV 的 3D 检测方法，与著名的基于 BEV 的方法 CenterPoint 相比，其平均 AP 略高，并且 RangePerception 的推理速度是 CenterPoint 的 1.3 倍。

网络设计：

本文展示了一种高效且准确的基于 RV 的 3D 检测框架，称为 RangePerception。为了克服上述关键挑战，提出了两种名为 Range Aware Kernel (RAK) 和 Vision Restoration Module (VRM) 的新颖算法，并将其集成到 RangePerception 框架中，两者都促进了 range image 表示和世界坐标 3D 检测结果的信息流。在 RAK 和 VRM 的帮助下，本文的 RangePerception 在 WOD 上为 vehicle & pedestrian & cyclist 提供了 73.62、80.24 和 70.33 L1 3D AP，作为 range-view-based 3D 检测方法，实现了最先进的性能。本文的贡献如下。

RangePerception Framework. 本文介绍了一种新颖的高性能 3D 检测框架，名为 RangePerception。RangePerception 是第一个基于 RV 的 3D 检测器，在 WOD 上实现了 74.73/69.17 平均 L1/L2 AP，优于之前最先进的基于 RV 的检测器 RangeDet，后者的平均 L1/L2 AP 为 71.48/64.99，呈现 3.25/4.18 的改进。与广泛使用的基于 BEV 的方法 CenterPoint [6] 相比，RangePerception 还表现出了稍微优越的性能，后者的平均 L1/L2 AP 为 74.25/68.04。值得注意的是，RangePerception 的推理速度是 CenterPoint 的 1.3 倍，这证明其更适合自动驾驶车辆上的实时部署。

Range Aware Kernel. 作为 RangePerception 特征提取器的一部分， Range Aware Kernel (RAK) 是一种专为基于 RV 的网络量身定制的开创性算法。RAK 将 range image 空间分解为多个子空间，并通过从每个子空间中独立提取特征来克服空间错位问题(Spatial Misalignment issue)。实验结果表明，RAK 将平均 L1/L2 AP 提高了 5.75/5.99，而计算成本可以忽略不计。

Vision Restoration Module. 为了解决视觉损坏问题(Vision Corruption issue)，本研究提出了 Vision Restoration Module（VRM）。VRM 通过恢复先前损坏的区域来扩展 backbone 网络的感受野。VRM 对于车辆检测特别有帮助，如实验部分所示。

图 2：RangePerception 框架采用 range image I 作为输入并生成密集预测。为了改进表示学习，该框架在 Range Backbone 之前依次集成了 VRM 和 RAK 模块。随后，使用专门设计的 Redundancy Pruner 来消除深层特征中的冗余，从而减轻后续 Region Proposal Network 和后处理层中的计算成本。

图 1：(a-d) 顶部 LiDAR 信号的示例帧，分别以 RV 和 BEV 表示。(e) 空间错位现象(Spatial Misalignment phenomena)。(f) 视觉损坏现象(Vision Corruption phenomena)。

图 3：Range Aware Kernel 将 range image 空间分解为多个子空间，并通过从每个子空间提取独立的特征来克服空间错位问题(Spatial Misalignment issue)。

图 5：Vision Restoration Module。通过预先定义恢复角 δ，VRM 构建了一个方位角 θ ∈ [−δ, 2π + δ] 的扩展球面空间。因此， range image I 两侧的视觉损坏问题都得到了解决，显着简化了从 I 边缘提取特征的过程。

实验结果：

总结：

本文介绍了 RangePerception，这是一种基于 RV 的 3D 检测框架，可有效解决空间错位(Spatial Misalignment)和视觉损坏(Vision Corruption)的挑战。通过引入 RAK 和 VRM，RangePerception 在 WOD 上实现了卓越的检测性能，展示了其高效、准确的实际部署潜力。

引用：

@inproceedings{
bai2023rangeperception,
title={RangePerception: Taming Li{DAR} Range View for Efficient and Accurate 3D Object Detection},
author={Yeqi BAI and Ben Fei and Youquan Liu and Tao MA and Yuenan Hou and Botian Shi and Yikang LI},
booktitle={Thirty-seventh Conference on Neural Information Processing Systems},
year={2023},
url={https://openreview.net/forum?id=9kFQEJSyCM}
}

① 全网独家视频课程

BEV感知、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、协同感知、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）

视频官网：www.zdjszx.com

② 国内首个自动驾驶学习社区

近2000人的交流社区，涉及30+自动驾驶技术栈学习路线，想要了解更多自动驾驶感知（2D检测、分割、2D/3D车道线、BEV感知、3D目标检测、Occupancy、多传感器融合、多传感器标定、目标跟踪、光流估计）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、AI模型部署落地实战、行业动态、岗位发布，欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频，期待交流！

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区，聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、多模态感知、Occupancy、多传感器融合、transformer、大模型、点云处理、端到端自动驾驶、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流等方向。扫码添加汽车人助理微信邀请入群，备注：学校/公司+方向+昵称（快速入群方式）