全球首个！阿里巴巴联手浙大推出SAM4D：摄像头+激光雷达统一分割模型（ICCV 25）

本文链接：https://blog.youkuaiyun.com/soaring_casia/article/details/149282405

摘要

继SAM、SAM2掀起视觉分割革命后，阿里巴巴菜鸟团队联合浙江大学重磅推出SAM4D——全球首个摄像头+激光雷达统一分割模型！只需在图像中轻点一下，就能同时获得摄像头和激光雷达的精准分割结果，还能在整个时间序列中保持一致性。

SAM4D不仅解决了自动驾驶中多传感器标注效率低下的痛点，更通过创新的运动感知记忆机制和统一位置编码，实现了真正的四维场景理解。配套的Waymo-4DSeg数据集包含30万个跨模态标注，为行业提供了宝贵的训练资源。

从平面到立体，从静态到动态，SAM4D正在重新定义自动驾驶的感知边界。这项技术将如何改变整个行业？让我们一探究竟。

分割一切模型（SAM）在图像领域展现出强大的可提示分割能力，SAM2进一步扩展到视频领域。然而，现有方法仍局限于图像和视频，未考虑自动驾驶等安全关键应用中的其他传感器模态。

自动驾驶系统需要鲁棒的多模态感知能力，其中摄像头和激光雷达协同工作，相互补偿各自局限性。尽管激光雷达提供精确的几何先验信息，但现有激光雷达感知分割模型仍以单帧为中心，缺乏系统性利用同步激光雷达扫描和摄像头流之间跨模态空间一致性的工作。

为降低标注成本并提高多模态分割效率，本文引入了可提示多模态分割（PMS）任务，能够基于两种模态的提示对摄像头和激光雷达序列进行分割，并支持跨模态提示功能。

基于PMS任务，本文提出SAM4D，这是首个用于摄像头和激光雷达流的可提示多模态分割模型。SAM4D基于多模态变换器架构，集成了用于空间对齐的统一多模态位置编码（UMPE）和用于时序一致性的运动感知跨模态记忆注意力（MCMA）。UMPE在共享三维空间中融合图像和激光雷达特征，实现无缝跨模态交互；MCMA融合自车运动补偿，确保准确的时序特征对齐。

本文构建了Waymo-4DSeg数据集，基于Waymo开放数据集提供大规模多模态分割标注。多模态数据引擎通过整合视频masklet生成、激光雷达伪标记的四维重建和跨模态标签融合，使用序列级传播策略确保时序一致性。

实验结果表明，SAM4D在保持高分割质量的同时，能够有效处理跨模态提示和长时程目标跟踪，为自动驾驶场景下的四维场景理解提供了新的解决方案。

图1｜我们旨在通过引入三个相互关联的组件来构建四维分割的基础模型：（a）一个可提示的多模态分割任务，将分割扩展到摄像头和激光雷达流；（b）一个分割模型（SAM4D），实现具有跨模态提示和时序对齐的二维-三维联合分割；（c）一个自动数据引擎，用于构建Waymo-4DSeg——一个包含超过30万个摄像头-激光雷达关联masklet的大规模数据集，为SAM4D训练提供伪标签。

可提示多模态分割（PMS）任务旨在实现跨摄像头和激光雷达流的交互式、跨模态和时序分割。与传统的单模态或逐帧处理不同，PMS允许二维（图像）或三维（激光雷达点云）中的提示来指导整个序列的分割。提示可以是正负点击、边界框或掩码形式，用于定义新目标或优化现有分割结果。一旦在特定帧上提供提示，模型应立即为两种模态返回有效分割掩码，然后将结果传播到整个序列中，形成保持时序一致性的masklet。

为支持PMS任务，本文开发了SAM4D统一分割模型，能够通过跨模态提示处理视频和激光雷达流。此外，基于Waymo开放数据集构建了大规模数据集，为PMS提供高质量伪真值标注。

PMS任务的核心创新在于打破传统分割任务的模态边界，实现真正的跨模态交互分割。用户可以在图像中点击目标，模型不仅能在该图像中分割出目标，还能同时在对应激光雷达点云中找到并分割出相同目标，并在整个时间序列中保持一致性。

这种设计特别适合自动驾驶场景，因为标注人员往往需要在多个传感器视角下标注同一目标，而PMS任务能够大幅提高标注效率，减少重复劳动。通过允许跨模态提示，标注人员可以在一个模态中提供提示，然后获得所有模态的分割结果，这大大提高了标注效率和一致性。

3.1 概述

SAM4D将SAM2从视频分割扩展到多模态领域，解决了自动驾驶场景中跨模态和长期目标分割的挑战。本文提出了统一多模态位置编码来实现多模态特征和提示交互。为了增强长期目标分割能力，模型考虑了自车运动并设计了运动感知跨模态记忆注意力机制。SAM4D的整体架构如图2所示。

图2｜SAM4D的整体架构

3.2 多模态分割框架

在多模态特征嵌入方面，视频分支遵循SAM2的设计，采用具有SA-V预训练的Hiera架构将每个图像帧嵌入为无条件的patch token。在激光雷达分支中，使用通过TorchSparse实现的MinkUNet来将稀疏点云编码为体素级token。图像和激光雷达编码器仅运行一次以减少计算开销，实现长时程视频序列的高效处理。

运动感知跨模态记忆注意力是本文方法的核心组件，通过整合跨模态特征和记忆中的先前帧特征来优化特征表示，确保跨模态和时序对齐。与SAM2不同，SAM4D通过深度估计将图像patch提升到三维空间，允许对图像patch token和激光雷达体素token进行统一位置编码。此外，自车运动也被嵌入到与过去特征和预测的交叉注意力中，实现长期时序一致性。

在提示编码器和掩码解码器方面，提示编码器支持来自图像和激光雷达输入的不同输入提示，以定义目标的空间范围和位置。稀疏提示（如点和框）通过位置编码表示，并与每种提示类型的可学习嵌入相加，而掩码提示则通过卷积和稀疏卷积进行嵌入。掩码解码器处理来自两种模态的提示以及由记忆注意力更新的特征，同时预测二维和三维分割掩码。

记忆编码器和记忆库的设计中，记忆编码器分别处理二维和三维分割掩码，对图像使用卷积，对激光雷达使用稀疏卷积来下采样输出。然后将下采样的掩码与来自编码器的初始嵌入进行逐元素相加，应用轻量级卷积层来融合信息。记忆库维护先进先出队列来存储过去的目标特征，最多保留N个未提示帧和M个提示帧。模型存储从掩码解码器token计算的目标指针，捕获分割目标的高级语义信息并参与记忆注意力。

3.3 统一多模态位置编码

为了确保图像和激光雷达模态的一致空间表示，本文精心设计了统一多模态位置编码（UMPE）方案。如图3所示，这种编码在共享空间中统一了二维和三维特征，允许跨模态交互的同时保持每种模态的内在结构。UMPE由两个互补组件组成：一是模态特定的位置先验，在其原生空间中编码特征；二是共享的三维表示，在公共空间域中对齐两种模态。

图3｜UMPE方案

对于图像的位置编码，首先为图像特征中的像素分配二维正弦位置编码，保持图像平面中的空间结构。为了将图像特征与激光雷达空间表示对齐，为每个像素估计深度集合并将其提升到三维空间，类似于Lift-Splat-Shoot方法。通过相机内参矩阵和从相机坐标到激光雷达坐标的变换矩阵，将图像转换为伪点云，然后应用基于多层感知器的三维位置编码。最终的位置编码由二维正弦编码和三维多层感知器编码组成。

对于激光雷达的位置编码，采用类似的两阶段编码方法。首先应用三维正弦位置编码，编码点云的空间结构。为确保与提升到三维的图像特征的一致性，使用相同的基于多层感知器的变换。

对于来自图像或激光雷达的稀疏提示（包括点或边界框），应用与密集特征相同的双阶段位置编码。来自两种模态的编码提示在输入掩码解码器前进行拼接，缺失提示被空占位符替换。稀疏提示嵌入然后与输出token拼接，并应用运动感知记忆注意力更新的特征的交叉注意力，使掩码解码器能够生成二维和三维分割掩码。

通过在共享三维空间中统一图像和激光雷达位置编码，同时保持模态特定特征，UMPE实现了框架中进一步的跨模态特征融合和交互。

3.4 运动感知跨模态记忆注意力

为了增强多模态特征表示并确保时序一致性，本文引入了运动感知跨模态记忆注意力（MCMA）。该模块集成了自注意力、图像和激光雷达模态间的交叉注意力，以及基于记忆的时序注意力，如图4所示。与以往方法的关键区别是融合了自车运动补偿，将过去帧的特征对齐到当前坐标系统，允许更准确的特征检索。

图4｜MCMA机制

在特征优化的自注意力方面，给定来自各自编码器的图像特征和激光雷达特征，以及从统一多模态位置编码获得的位置编码，首先在每个模态内应用自注意力来优化模态内特征表示。

对于多模态融合的交叉注意力，执行交叉注意力使一个模态能够融合来自另一个模态的信息。两种模态共享互补的空间和结构信息，增强了用于分割的特征表达能力。

在运动对齐记忆的时序注意力方面，与仅考虑短期目标运动的SAM2不同，本文方法明确融合了自车运动补偿来处理自动驾驶场景中的大尺度场景变化。模型维护一个记忆库，存储历史图像和激光雷达特征以及它们的三维空间位置，保留N个未提示帧和M个提示帧用于时序参考。

为了正确地将过去帧特征对齐到当前坐标帧，使用自车运动变换矩阵变换存储的位置，该矩阵将历史帧映射到当前帧。这个变换矩阵来自车辆里程计，确保空间一致的记忆检索。一旦变换完成，先前帧特征和目标指针被用于交叉注意力，以使用对齐的时序信息更新当前特征。

通过融合运动感知记忆对齐，MCMA显著提高了跨帧的特征一致性，减少了大尺度场景变化造成的目标对应误差，使SAM4D能够在动态真实世界环境中执行鲁棒的跨模态和时序分割。

3.5 训练

SAM4D模型通过跨模态的模拟交互提示在摄像头和激光雷达序列上进行联合训练，遵循SAM系列中引入的策略。对图像和激光雷达预测应用相同的损失函数以强制跨模态一致性。

据我们所知，目前还没有数据集能够同时支持二维和三维分割，同时确保实例在时间上的一致性。为了快速建立和扩展低成本的训练数据集，本文精心设计了一个多模态自动数据引擎来获得尽可能多的高质量伪真值数据。使用这个数据引擎，本文基于Waymo开放数据集构建了Waymo-4DSeg数据集，为多模态和时序分割提供了大规模基准。

4.1 数据引擎

如图5所示，本文的数据引擎包含三个步骤。第一步中，利用视觉基础模型（VFM）为摄像头图像序列生成初始标注。给定长度为T的图像序列，每隔K帧选择关键帧。从第一帧开始，采用开放词汇检测器Grounding-DINO和可提示的SAM获得自动驾驶场景中常见目标的检测和分割掩码。生成的关键帧掩码作为SAM2的提示，将分割向前传播到下一个关键帧，为中间帧生成masklet。

图5｜数据引擎

第二步中，利用激光雷达帧和预标注的前景目标三维边界框构建四维基于体素的重建，作为图像数据和激光雷达帧间的中介。这个四维重建由单个背景组件和多个前景组件组成，每个组件都在目标的体坐标系中定义。同时从每个图像中心向体素执行详尽射线投射，建立密集的像素-体素映射表。

第三步中，通过查询像素-体素映射表，将视频masklet分配给相应体素。由于标签和掩码中噪声的存在，采用DBSCAN算法根据体素的鸟瞰图位置对体素进行聚类，选择具有最高投票率的主要聚类，丢弃其余部分作为噪声。过滤后，评估来自不同视频的体素masklet间的重叠，将它们合并为单个masklet。最后，基于三维空间距离创建激光雷达帧点和体素间的映射表，便于将最终体素masklet传输到激光雷达帧。使用跨模态交并比评估生成masklet的质量，平均得分为0.56。

4.2 构建的数据集

Waymo-4DSeg数据集源自Waymo开放数据集，包含1000个片段（798个训练，202个验证），每个片段约200帧。平均每个片段生成300个masklet，每个masklet出现在约122帧中，导致平均每个图像有17个掩码，每个点云有170个掩码。此外，23.4%的masklet在至少两个不同片段中被观察到。

masklet的语义类别涵盖自动驾驶场景中的相关项目，包括动态前景目标（车辆、行人）、背景元素（建筑物、树木）和附近目标（路沿、路灯、交通锥）。目标体积范围从少于10个体素到超过20万个体素（体素大小0.1米），占据平均1.5k像素到超过1M像素的图像面积。

数据集的规模和多样性体现了其作为多模态分割基准的价值。通过涵盖各种目标类型和尺度，为训练和评估多模态分割模型提供了丰富数据基础。目标在不同片段中的重现支持模型学习跨场景一致性表示，广泛的尺度分布确保模型能够处理从小型交通设施到大型建筑物等各种规模目标。

5.1 实验设置

利用构建的Waymo-4DSeg数据集，本文在16个NVIDIA A100 GPU上以最多6个目标训练SAM4D模型36个epochs。使用具有768×768输入图像分辨率的Hiera-S图像编码器和具有0.15米体素化输入激光雷达点的Mink-34激光雷达编码器。

评估指标采用平均交并比（mIoU）评估每个单帧中摄像头和激光雷达的分割性能。对于图像序列，还报告了视频目标分割中的J&F指标。此外，引入了错误匹配预测数量（NMP），量化预测目标未能与交并比低于0.01阈值的真值匹配的实例数量。

5.2 主要结果

在可提示跨模态帧分割方面，通过选择两种模态中都存在的目标并在单一模态中提供提示，然后测量单帧内两种模态的分割交并比来评估。提示包括单点、多点、边界框和掩码输入。如表1所示，在图像或激光雷达中提供提示使另一个模态能够实现有希望的分割结果，展示了SAM4D中跨模态提示的能力。

表1｜不同提示在在可提示跨模态帧分割上的性能比较

在可提示多模态流分割方面，进一步评估了SAM4D的流级可提示分割能力，模拟交互式标注过程。实验在离线和在线模式下进行。如图6所示，SAM4D在两种设置下都实现了稳定的分割性能，随着额外提示的引入持续改善。

图6｜交互式离线和在线评估设置下不同可提示帧数的性能比较

在半监督流目标分割方面，仅为图像和激光雷达序列提供第一帧提示，并在整个序列上评估分割以评估时序传播和跟踪。如表2所示，编码更丰富空间信息的掩码提示在两种模态中都实现了最高的分割性能，优于点提示和框提示。

表2｜不同提示在半监督流目标分割上的性能比较

在PMS任务泛化实验方面，通过零样本迁移和微调在未见过的nuScenes数据集上评估SAM4D。如表3所示，SAM4D展示了强大的零样本分割性能，突出了其对未见驾驶场景的跨模态泛化能力。在nuScenes上的进一步微调增强了分割质量，展示了模型在新环境中适应和优化预测的能力。

表3｜nuScenes数据集在半监督流目标分割设置下的性能比较

5.3 消融实验

本文在半监督流目标分割设置下进行消融研究，以验证SAM4D框架中的设计选择。

在输入模态消融方面，通过训练SAM4D的单模态变体来分析输入模态的影响，其中仅保留图像分支（SAM4D-C）或激光雷达分支（SAM4D-L）。此外，引入了一个基线（SAM2+Project），该基线将SAM2的视频分割结果投影到逐帧点云上。如表4所示，多模态SAM4D有效利用了跨模态交互和提示，与单模态对应物相比实现了显著更好的分割性能。

表4｜SAM4D输入模态的消融研究

在输入分辨率消融方面，接下来检查输入分辨率在可提示分割性能中的作用。与图像分辨率512×512和0.2米体素的基线设置相比，将分辨率增加到图像768×768和体素0.15米导致显著的性能提升，如表5所示。这表明了高分辨率输入在密集预测任务中的重要性，其中更精细的空间细节有助于更准确的分割。

表5｜两种模态输入分辨率的消融研究

在记忆注意力中自车运动消融方面，对运动感知跨模态记忆注意力中自车运动的融合进行消融研究，以评估其对时序特征融合和目标跟踪的贡献。如表6所示，自车运动补偿显著减少了流分割中的跟踪不一致性，特别是对于激光雷达，其中错误匹配预测数量从746减少到592，表明改善了时序稳定性。此外，其整合导致平均交并比的显著改善，突出了自车运动在增强长序列分割准确性方面的重要性。

这些消融实验充分验证了SAM4D设计的有效性。多模态输入的优势表明，摄像头和激光雷达的互补性确实能够显著提升分割性能。高分辨率输入的重要性反映了精细分割任务对空间细节的需求，这在自动驾驶场景中尤为重要。自车运动补偿的有效性进一步证明了考虑观察者运动对于长期跟踪的重要性。