ICML‘25 | 统一多模态3D全景分割：图像与LiDAR如何对齐和互补？-优快云博客

点击下方卡片，关注“自动驾驶之心”公众号

动机

激光雷达（LiDAR）因数据稀疏性，在检测如小物体或远距离目标时效果受限，而相机图像能提供丰富的纹理细节，二者优势互补。为此，我们提出 IAL（Image-Assists-LiDAR），实现高效的多模态3D全景分割。

核心亮点

🔥 端到端框架：无需复杂后处理，直接输出全景分割结果。 2. 🤖模态同步增强：首创通用的LiDAR与图像数据同步增强范式PieAug，提升训练效率与泛化性。
⚡精准特征融合：通过几何引导的 Token 融合 (GTF) 和先验驱动的 Query 生成 (PQG)，实现 LiDAR-图像特征的精准对齐与互补。
🚀 更高精度：在nuScenes和SemanticKITTI上达到SOTA，性能远超同期方法

大会收录 | ICML 2025
论文标题 | How Do Images Align and Complement LiDAR? Towards a Harmonized Multi-modal 3D Panoptic Segmentation
论文链接 | https://arxiv.org/abs/2505.18956
工作单位｜新加坡科技设计大学（SUTD）、新加坡科技研究局（A*STAR）
代码链接 | https://github.com/IMPL-Lab/IAL

方法创新

IAL三大核心技术突破：

PieAug模态同步增强
- 问题与发现:现有多模态分割方法仍采用仅在LiDAR端进行数据增强的策略，导致增强后的LiDAR点云与相机图像数据出现严重不对齐，直接影响多模态特征融合效果。
- 解决方案
- "切蛋糕"策略：将场景沿角度和高度轴切割为扇形切片，获得多组配对的点云和多视角图像单元
- 混合增强：通过不同组合模式混合原场景和新场景，组合模式包括实例级（图2（a））和场景级（图2（b&c））。
- 显著优势：PieAug策略很好地兼容如LaserMix/PolarMix等现有LiDAR-only的增强方法，同时实现跨模态对齐

GTF特征融合模块
- 通过物理点投影实现图像特征精准聚合，避免虚拟中心点导致的偏差
- 基于圆柱体素的8个极值点构建尺度感知位置编码（Scale-aware Positional Embedding，如图3（c）所示）
- 基于体素级的投影会导致点云和图像表示存在显著的位置偏差，尤其在大尺寸体素情况下这个偏差会导致错误的语义表达（如图3（a）所示）
- 传统方法忽视不同传感器数据的感受野差异，严重制约特征表达能力（如图3（b）所示）
- 问题与发现
- 解决方案

PQG查询初始化
- 传统可学习query容易陷入“简单样本”局部最优，对于远距小目标物体的召回率低。
- 单一传感器先验难以覆盖复杂场景需求
- 问题与发现
解决方案 - 三重查询生成机制：
- 几何先验query：对于3D特征显著的物体，通过BEV热力图预测其中心位置
- 纹理先验query：通过2D VFM （Grounding-DINO和SAM）生成2D掩码，提升小物体召回率
- 无先验query：我们认为那些没有明显3D和2D先验特征的物体，其特征表达遵循一定潜在规律，因此可以使用可学习参数的query来补充，实现困难样本检测。