AAAI2025：这也能融合？巧用多坐标系融合策略，PC-BEV实现点云分割170倍加速，精度显著提升！-优快云博客

引言：本文提出了一种基于鸟瞰图（BEV）空间的激光雷达点云分割方法，该方法通过融合极坐标和笛卡尔分区策略，实现了快速且高效的特征融合。该方法利用固定网格对应关系，避免了传统点云交互中的计算瓶颈，并通过混合Transformer-CNN架构增强了场景理解能力。实验结果证明，该方法在性能和推理速度方面均优于现有的多视图融合技术。

©️【深蓝AI】编译

论文标题：PC-BEV: An Efficient Polar-Cartesian BEV Fusion Framework for LiDAR Semantic Segmentation

论文作者：Shoumeng Qiu, Xinrun Li, Xiangyang Xue, Jian Pu

论文链接：https://arxiv.org/pdf/2412.14821

1、背景介绍

激光雷达点云分割是自动驾驶领域的核心任务，其目标在于精细地理解周围环境的语义信息。目前，该领域的方法主要分为三类：基于点的方法、基于体素的方法和基于投影的方法。

其中，基于投影的方法因其能够利用2D卷积神经网络（CNN）高效处理投影点云而受到青睐。但是，相比于计算量大的基于体素方法，从3D到2D的投影过程中不可避免地丢失信息，这限制了这种算法的性能。

为了缩小这一性能差距，多视图融合技术应运而生，通过整合不同投影技术捕获的互补信息。近期的多视图融合方法，如AMVNet、GFNet和CPGNet，通过基于点的特征交互增强了表示学习。

然而，由于缺乏视图间的固定对应关系，这些方法需要进行高成本的网格采样和散射操作，影响了实时性能。此外，特征融合通常仅限于点存在的区域，可能会忽略周围区域中有价值的上下文信息。

▲图1 | 与其他基于投影的方法比较，结果展示了本文方法在性能和速度方面的优越性。©️【深蓝AI】编译

2、方法提出

为了克服这些限制，作者提出了一种创新的多分区特征融合框架，完全在BEV空间内操作，充分利用了极坐标和笛卡尔分区方案之间的固定对应关系。该方法受到BEV中极坐标分区与范围视图中球坐标分区相似性的启发，并且实验表明不同分区方法的性能具有互补性。

为了促进极坐标和笛卡尔分支之间的特征融合，作者引入了一种高效且有效的基于重映射的融合方法。利用极坐标和笛卡尔空间分区在相同BEV空间内固有的固定坐标对应关系，预先计算对应参数，再通过精心设计的重映射操作实现高效特征融合。这种方法比以往的基于点的特征交互方法快170倍。此外，所有的特征融合在BEV空间位置操作，不仅实现了密集融合，还保留了比以往基于点的方法更多的宝贵上下文信息。

作者还提出了一种混合Transformer-CNN架构，用于BEV特征提取。Transformer块中的自注意力捕获全局场景信息，然后是一个轻量级的U-net样式CNN用于详细特征提取。实验结果表明，这种架构在保持实时推理能力的同时增强了模型性能。

3、方法详解

3.1. 极坐标-笛卡尔BEV融合框架

作者提出的极坐标-笛卡尔BEV融合框架用于激光雷达语义分割的概述如图2所示。它包括两个分支：笛卡尔分支和极坐标分支。给定一个点云 $P = \{p_0, p_1, \ldots, p_{N-1}\}$ ，由N个激光雷达点 $p_i = \{x_i, y_i, z_i, r_i\}$ 组成，其中 $\{x_i, y_i, z_i\}$ 是相对于扫描仪的笛卡尔坐标， $r_i$ 是返回激光束的强度。

作者对BEV投影应用两种不同的分区策略：笛卡尔和极坐标。点云仅沿x和y轴进行量化，以实现高效的2D基础特征提取。对于点云P，点首先通过简化的PointNet进行编码，该PointNet仅由全连接层、批量归一化和ReLU层组成。随后，提取的特征被重新散射回BEV空间，分别表示为 $F_{\text{cart}}$ 和 $F_{\text{polar}}$ 。作者使用两个具有相同结构但不同参数的网络执行特征提取。这两个分支的特征在过程中进行双向交互，包括特征对齐和融合，最终预测结果也从这两个分支的融合中得出。每个分支的特征提取网络是本文提出的Transformer-CNN混合架构，包括两个标准Transformer块