TrackAny3D：一个模型通吃所有3D单目标跟踪！-优快云博客

来源 | 极市平台

点击下方卡片，关注“自动驾驶之心”公众号

本文只做学术分享，如有侵权，联系删文

导读

TrackAny3D 首次把大规模预训练 3D 点云模型搬进单目标跟踪任务，用轻量适配器+几何专家混合网络，让一套模型无需类别微调即可“通吃”汽车、行人、自行车等全部类别。新设计的时间令牌与动态掩码加权机制，把静态预训练特征升级为连贯的时序表达，在 KITTI、NuScenes、Waymo 上刷新类别统一设定的最佳成绩。

论文标题: TrackAny3D: Transferring Pretrained 3D Models for Category-unified 3D Point Cloud Tracking

论文地址：https://arxiv.org/pdf/2507.19908

论文代码：https://github.com/sallymmx/TrackAny3D.git

01 引言

基于点云的3D SOT是指在动态三维场景中持续定位特定目标的任务。该任务在自动驾驶与移动机器人等多个领域展现出广阔的应用前景。与利用丰富纹理和色彩信息的RGB图像跟踪方法不同，基于3D雷达的单目标跟踪主要依赖于稀疏且不规则的点云数据来估计目标的三维空间位姿。

这种对几何信息的高度依赖带来了诸多独特挑战：不同类别的目标（如汽车、行人）在尺寸、运动特性以及结构复杂度等方面存在显著差异。

图(a) 范式对比

为了解决上述挑战，现有方法采用类别专用的学习范式，如上图(a)所示，其中每种物体类型都独立训练和测试多个专用模型。尽管这种方法在精度上表现优异，但在实际部署中并不实用，因为它需要大量的计算资源来训练和存储特定类别的网络，同时也无法泛化到新的未知类别，这对于开放世界应用场景来说是一个关键限制。

我们通过实验观察发现，直接将现有方法应用于所有类别联合训练统一模型时，其性能相比类别专用模型显著下降，如上图(b)所示。MoCUT是唯一一种尝试解决该问题的方法，它通过显式编码与不同对象类别相关的特征属性来进行建模。然而，该方法主要依赖于非可学习的约束机制，需要手动调整超参数，且泛化能力有限。

基于以上分析，我们关注这样一个问题：如何在不引入人工偏差的前提下，学习具有几何感知能力且类别无关的表示？

大规模预训练模型的发展为此问题提供了变革性的解决方案。在2D视觉和自然语言处理领域，基于网络规模数据预训练的基础模型已在下游任务中展现出卓越的泛化能力。这得益于参数高效微调技术（PEFT），例如提示调优或适配器模块。类似地，我们认为预训练的3D点云模型也可以为3D单目标跟踪任务提供有价值的几何先验信息，在一定程度上缓解上述的几何差异问题。

然而，将这一范式扩展到3D单目标跟踪仍然缺乏探索，并面临三个核心挑战：

分布不匹配： 预训练数据集（如ShapeNet、ScanNet）在类别多样性和场景复杂性方面远不如真实世界的跟踪场景；
持续性差距： 预训练模型部分缓解了几何差异，但仍无法完全解决对几何敏感性带来的内在冲突；
缺乏时间建模：大多数预训练任务专注于静态形状重建或识别，而跟踪任务则需要建模时间一致性。

为应对这些挑战，我们提出了 TrackAny3D，这是首个能有效将大规模预训练点云模型迁移用于类别无关的3D单目标跟踪的框架。

TrackAny3D采用了全新的“类别统一＋预训练迁移”范式，并包含三个核心设计，分别对应并解决了上述三个问题。具体而言，我们在Transformer层中集成了一种轻量级双路径适配器。其中一个路径负责特征适配，另一个路径则调节这种适配的强度。该适配器在冻结原始预训练网络的同时，动态对齐预训练特征与3D SOT任务，从而保留几何先验并提升学习效率。

为了进一步解决持续性差距，我们引入了几何专家混合模块（MoGE），由多个专家子网络组成，根据物体的几何特性自适应激活专门的专家，以解决不同几何模式之间的冲突。此外，考虑到时间建模的需求，我们提出了时间上下文优化策略，通过可学习的时间令牌传播历史状态，并结合一种动态掩码权重机制，根据实时几何变化自适应校准输入信息。

综上所述，我们的主要贡献有：

提出了 TrackAny3D，这是首个无需类别专用调优即可将大规模3D预训练模型成功应用于开放世界3D单目标跟踪的方法。该方法通过引入轻量级适配器，实现了有效的知识迁移。
我们设计了一种几何专家混合架构（mixture-of-geometry-experts），其中每个专家子网络学习不同的几何特征，从而在多种物体类别上实现统一且自适应的处理。
提出了一种时间传播策略，结合可学习的时间令牌和动态掩码权重机制，共同应对时间变化和状态漂移问题。

02 方法

图(b) 整体框架

2.1 高效迁移预训练模型

TrackAny3D使用 RECON作为预训练模型，它是一个强大的三维表示学习框架，结合了生成式掩码建模与对比学习的优点。给定一个包含个点的输入点云，RECON 使用一个轻量级的 PointNet作为块嵌入层，将其编码为输入嵌入，其中表示嵌入特征的维度。接下来，类似于 ViT，RECON 的编码器由个 Transformer 层组成，用于对输入令牌进行编码。具体来说，每个 Transformer 层主要由一个标准的多头自注意力模块、层归一化以及一个前馈网络构成。形式上，对于第层：

为了与预训练模型的输入保持一致，我们采用了一个统一的建模框架，将一个可学习的时间令牌、模板帧的嵌入点令牌和搜索帧的嵌入点令牌进行拼接，构建出，并在统一的 Transformer 模块中进行特征提取和匹配。

事实上，迁移预训练模型最直接的方法是对整个模型进行微调；然而，我们发现这种方法可能导致性能不理想且训练资源消耗较大。这是因为在模型覆盖预训练阶段所学到的知识时，可能会导致其原有能力的退化。因此，我们探索了 PEFT方法，该方法仅通过少量可学习参数即可使模型适应新任务，同时通过冻结核心参数来保留预训练知识。

具体来说，如上图(b) 所示，我们的适配器模块包含两条路径：一条是适配路径，另一条是门控评分路径。前者包含示，我们的适配器模块包含两条路径：一条是适配路径，另一条是门控评分路径。前者包含一个下采样投影层、一个 GeLU 激活函数，以及一个上采样投影层。后者则由一个评分权重矩阵和一个 ReLU 激活函数组成。该路径用于为每个令牌计算一个动态缩放因子，以数据驱动的方式调节适配过程的影响。然后，这两条路径的输出进行逐元素相乘。总体而言，对于输入特征，适配器（AD）的过程可以表示为：

这种双路径设计确保了适配器模块能够有效控制适配特征的贡献。我们在每个 Transformer 层中添加了两个适配器，分别并行于 MHSA 和 FFN 层，具体方式如下：

2.2 几何专家混合

虽然上述适配器无需修改预训练模型的核心参数即可实现高效的迁移学习，但在跨类别场景下其性能仍存在一定局限性。这是由于预训练数据集来源于不同的数据域（例如，ShapeNet主要包含室内物体），与我们现实世界中的 3D 单目标跟踪场景之间存在显著差异。因此，即使通过引入几何先验信息在一定程度上缓解了这些问题，几何上的差异仍然存在。

我们的解决方案借鉴了MoE的思想，该方法通过一组“专家”来学习多种数据偏置视角。尽管 MoE 最初是为构建大规模预训练模型而提出的，但我们将其应用于面向几何感知建模的 3D 迁移学习场景，并将其命名为 Mixture-of-Geometry-Experts（MoGE），并展示了其在提升跨类别统一泛化能力方面的有效性。

第个 MoGE 层的输入是通过将时间令牌与搜索令牌进行拼接构建得到的。如上图c所示，MoGE 层由个几何专家组成，其中表示第层中的第个专家，其结构与 FFN 相同。MoGE 的路由算法决定了哪些专家将处理输入。在这里我们采用 Top－K门控路由机制作为我们的 Router ，它通过一个可学习的门控网络来做出决策。该网络包含一个专家嵌入，用于将特征映射为评分。具体而言，MoGE 的输出可以表示为：

只有 K（K < M）个专家会被激活，接收输入并在输出结果前执行自适应融合。如下图（c）所示，MoGE 通过基于几何特征而非仅仅依赖类别标签进行自适应选择，展示了其设计的有效性。我们将 MoGE 层放置在 Transformer 块内的 FFN 之后，以避免干扰预训练模型的原始结构。具体来说，这意味着 MoGE 不仅利用了几何先验来处理不同数据域之间的差异，还通过动态选择最合适的专家模块实现了更高效的特征处理和融合。这种布置确保了在增强模型对未见类别泛化能力的同时，最大限度地保留了预训练模型原有的性能和架构完整性。

图(c) 专家分布情况图

2.3 时序上下文优化

初始的预训练模型学习的是静态任务的表示，而跟踪本质上是一个动态任务。因此，我们探索了额外的时序建模方法。受提示学习的启发，我们首先定义了一个可学习的初始时序令牌，它旨在在整个编码过程中与所有模板和搜索令牌充分交互。通过这种方式，该时序令牌能够吸收与当前时间步相关的时空表示信息。

图(d) 时序建模

具体来说，对于一个包含帧的序列，会沿着时间维度传播并更新，如上图（d）所示。在时间步，输入的时序令牌被更新为，它是通过将学习得到的初始时序令牌与最近一帧编码器输出的历史时序令牌进行融合而得到的：

需要注意的是，如果，则。随后，传播得到的时序令牌会通过编码器与当前的模板令牌和搜索令牌进行融合。在训练过程中，被随机初始化，并随着网络参数一起持续更新；在测试阶段，则直接加载训练好的值。该操作通过传播历史特征保留了时间一致性，同时避免了复杂的计算过程。

此外，为应对不同物体类别之间的时空变化，我们提出了一种动态掩码加权（Dynamic Mask Weighting）机制。我们首先为输入点云构建掩码，其中模板帧定义了一个以目标为中心的掩码，目标区域赋值为 0.8 ，背景区域赋值为 0.2 ；而搜索帧则使用一个初始化为 0.5 的均匀掩码。接着，我们提出引入可学习权重和，分别对模板区域和搜索区域的掩码进行自适应缩放，通过逐元素相乘的方式实现掩码加权。

通过在训练过程中联合优化，我们的方法不仅通过自适应的时间噪声抑制提升了掩码质量，还能根据不同类别的特性动态调整掩码的强调区域，而无需手动调节超参数。

03 实验

3.1 KITTI实验结果

TrackAny3D在KITTI数据集上展示了其在多个类别间良好泛化能力的同时保持高性能的优势。

表(a) Kitti实验结果

3.2 NuScenes实验结果

下表展示了在NuScenes数据集上，我们的 TrackAny3D方法在类别统一设定下取得了最佳结果，某些类别（如 Bus）的表现甚至超过了所有单类别学习模型。这凸显了我们的方法在解决几何差异问题方面的优越性。

表(b) NuScenes实验结果

3.3 Waymo实验结果

如下表所示，我们在Waymo的Vehicle类别上直接使用在KITTI数据集上训练的模型进行推理，从而验证了我们方法的泛化能力。结果表明，TrackAny3D展现了强大的竞争力，取得了64%的最佳跟踪性能，超越了所有其他方法，包括专门为特定类别设计的方法。

表(c) Waymo实验结果

04 总结

在本文中，我们提出了TrackAny3D，这是首个将大规模预训练点云模型与类别无关的三维单目标跟踪相结合的框架。通过整合参数高效的适配器和几何感知专家架构，TrackAny3D能够有效地从预训练中迁移几何先验知识，并自适应地解决跨类别的差异问题。此外，我们提出的时序上下文优化进一步增强了模型对时间变化和特征校准的鲁棒性。大量实验表明，TrackAny3D在类别统一设定下达到了最先进的性能，同时在与类别特定方法的对比中也保持竞争力，展示了其在多种真实场景中的强大泛化能力。

自动驾驶之心

论文辅导来啦

自驾交流群来啦！

自动驾驶之心创建了近百个技术交流群，涉及大模型、VLA、端到端、数据闭环、自动标注、BEV、Occupancy、多模态融合感知、传感器标定、3DGS、世界模型、在线地图、轨迹预测、规划控制等方向！欢迎添加小助理微信邀请进群。

知识星球交流社区

近4000人的交流社区，近300+自动驾驶公司与科研结构加入！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型，更有行业动态和岗位发布！欢迎加入。

独家专业课程

端到端自动驾驶、大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频

学习官网：www.zdjszx.com