清华Mars Lab发布SLAM-Former：用一个Transformer统一SLAM的前端与后端（附项目地址）

原创已于 2025-10-17 09:48:38 修改 · 986 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#transformer #前端 #深度学习 #目标跟踪 #YOLO #开源 #人工智能

于 2025-10-17 09:48:09 首次发布

将前端跟踪与后端优化统一在一个模型中，实现实时、高一致性的视觉SLAM

在机器人感知领域，同时定位与地图构建（Simultaneous Localization and Mapping，SLAM）技术至关重要。它使机器人能够在未知环境中构建地图，并同时跟踪自身位置，是实现自主导航的核心技术。

传统SLAM系统通常分为前端（实时跟踪与局部建图）和后端（全局优化与回环检测），二者分离设计，虽成熟但存在误差累积与全局一致性难以保证的问题。

一、传统SLAM的局限与神经SLAM的兴起

二、SLAM-Former：统一的前端-后端Transformer架构

一、传统SLAM的局限与神经SLAM的兴起

早期SLAM系统如ORB-SLAM、LSD-SLAM等主要依赖稀疏特征点，虽然高效稳定，但无法提供丰富的环境几何信息。近年来，随着深度学习的发展，尤其是光流估计与多视图深度估计技术的进步，基于单目相机的密集SLAM 方法逐渐成熟。

这类方法仅依靠图像输入就能实现高质量的地图重建，例如DROID-SLAM、SceneFactory等。近年来，更出现了基于几何基础模型（如DUSt3R、VGGT）的SLAM系统，如MASt3R-SLAM、VGGT-SLAM等。

然而，这些方法仍存在明显缺陷：

依赖局部子图对齐，导致全局不一致
增量式处理方法无法修正历史估计，造成漂移现象

二、SLAM-Former：统一的前端-后端Transformer架构

清华大学Mars Lab团队提出SLAM-Former，将完整的SLAM能力集成于单一Transformer模型中。其核心思想是：前端与后端共享同一套Transformer骨干网络，交替执行，相互促进。

前端负责实时处理序列图像，进行关键帧检测、姿态估计与增量式地图更新；后端则以较低频率启动，对所有历史地图令牌进行全局优化，确保几何一致性。

三、关键技术设计

前端：实时跟踪与建图

前端采用因果注意力机制，每到来一帧图像，模型会决定是否将其设为关键帧。若是，则利用历史KV缓存生成新的地图令牌，并更新当前地图状态：

后端：全局优化

后端使用全注意力机制，对所有地图令牌进行一次性优化：

这种设计相当于在密集因子图上执行回环检测，无需传统SLAM中复杂的图优化模块。

缓存共享机制

后端优化后的KV缓存会更新至前端，使得后续帧能在优化后的全局结构基础上进行跟踪，显著减少长序列中的误差累积。

四、三种训练模式

SLAM-Former通过三种训练模式统一前端与后端功能：

模式1（前端训练）：使用因果注意力，模拟在线推理
模式2（前后端协作训练）：混合注意力，后端优化与前端处理同步进行
模式3（后端训练）：全注意力，专注于全局一致性优化

三种模式在单次迭代中顺序执行，共享模型权重，实现端到端联合训练。

五、实验成果

跟踪性能领先

在TUM RGB-D、7-Scenes和Replica等标准数据集上，SLAM-Former在未标定设置下显著优于现有方法，甚至在许多场景下超越需要相机标定的传统方法。

重建质量大幅提升

在7-Scenes数据集上，SLAM-Former的重建精度达到0.017m，比其他方法提升约50%以上；在Replica数据集上同样取得最佳重建质量。

前后端协作的有效性

消融实验证明，后端模块的引入显著提升了系统性能。前端单独使用会随时间的推移积累误差，而结合后端后，系统能保持全局一致性。

六、实时性能

SLAM-Former在保持高质量的同时，也满足了实时性要求：

关键帧检测：< 100ms
前端处理：< 100ms
整体速度：> 10Hz

总结

SLAM-Former首次将完整SLAM能力整合到单一Transformer中，通过前端-后端的交替协作，在保持实时性的同时实现了全局一致性，在多个标准数据集上取得了领先的性能。

当前局限与未来方向：

后端全注意力的O(n²)复杂度限制可扩展性

需探索稀疏注意力、令牌合并等Transformer加速技术

支持纯局部前端模式，减少历史依赖

SLAM-Former为神经SLAM的发展开辟了新方向，证明统一的前端-后端设计能在单一模型中实现高效、一致的SLAM能力，为机器人的长期自主运行奠定了基础。

文档及项目地址

文档地址：https://arxiv.org/abs/2509.16909Github 项目地址：https://tsinghua-mars-lab.github.io/SLAM-Former/

清华Mars Lab发布SLAM-Former：用一个Transformer统一SLAM的前端与后端（附项目地址）

一、传统SLAM的局限与神经SLAM的兴起

二、SLAM-Former：统一的前端-后端Transformer架构

三、关键技术设计

前端：实时跟踪与建图

后端：全局优化

缓存共享机制

四、三种训练模式

五、实验成果

跟踪性能领先

重建质量大幅提升

前后端协作的有效性

六、实时性能

总结

文档及项目地址​​​​​​​

文档及项目地址