清华Mars Lab发布SLAM-Former:用一个Transformer统一SLAM的前端与后端(附项目地址)

将前端跟踪与后端优化统一在一个模型中,实现实时、高一致性的视觉SLAM

在机器人感知领域,同时定位与地图构建(Simultaneous Localization and Mapping,SLAM)技术至关重要。它使机器人能够在未知环境中构建地图,并同时跟踪自身位置,是实现自主导航的核心技术。

传统SLAM系统通常分为前端(实时跟踪与局部建图)和后端(全局优化与回环检测),二者分离设计,虽成熟但存在误差累积与全局一致性难以保证的问题。

目录

一、传统SLAM的局限与神经SLAM的兴起

二、SLAM-Former:统一的前端-后端Transformer架构

三、关键技术设计

前端:实时跟踪与建图

后端:全局优化

缓存共享机制

四、三种训练模式

五、实验成果

跟踪性能领先

重建质量大幅提升

前后端协作的有效性

六、实时性能

总结

文档及项目地址


一、传统SLAM的局限与神经SLAM的兴起

早期SLAM系统如ORB-SLAM、LSD-SLAM等主要依赖稀疏特征点,虽然高效稳定,但无法提供丰富的环境几何信息。近年来,随着深度学习的发展,尤其是光流估计多视图深度估计技术的进步,基于单目相机的密集SLAM 方法逐渐成熟。

这类方法仅依靠图像输入就能实现高质量的地图重建,例如DROID-SLAM、SceneFactory等。近年来,更出现了基于几何基础模型(如DUSt3R、VGGT)的SLAM系统,如MASt3R-SLAM、VGGT-SLAM等。

然而,这些方法仍存在明显缺陷:

  • 依赖局部子图对齐,导致全局不一致

  • 增量式处理方法无法修正历史估计,造成漂移现象


二、SLAM-Former:统一的前端-后端Transformer架构

清华大学Mars Lab团队提出SLAM-Former,将完整的SLAM能力集成于单一Transformer模型中。其核心思想是前端与后端共享同一套Transformer骨干网络,交替执行,相互促进

前端负责实时处理序列图像,进行关键帧检测、姿态估计与增量式地图更新;后端则以较低频率启动,对所有历史地图令牌进行全局优化,确保几何一致性。

screenshot_2025-10-16_16-54-48.png


三、关键技术设计

  • 前端:实时跟踪与建图

前端采用因果注意力机制,每到来一帧图像,模型会决定是否将其设为关键帧。若是,则利用历史KV缓存生成新的地图令牌,并更新当前地图状态:

screenshot_2025-10-16_16-55-48.png

  • 后端:全局优化

后端使用全注意力机制,对所有地图令牌进行一次性优化:

screenshot_2025-10-16_16-55-59.png

这种设计相当于在密集因子图上执行回环检测,无需传统SLAM中复杂的图优化模块。

  • 缓存共享机制

后端优化后的KV缓存会更新至前端,使得后续帧能在优化后的全局结构基础上进行跟踪,显著减少长序列中的误差累积。

screenshot_2025-10-16_16-56-25.png


四、三种训练模式

SLAM-Former通过三种训练模式统一前端与后端功能:

  • 模式1(前端训练):使用因果注意力,模拟在线推理

  • 模式2(前后端协作训练):混合注意力,后端优化与前端处理同步进行

  • 模式3(后端训练):全注意力,专注于全局一致性优化

三种模式在单次迭代中顺序执行,共享模型权重,实现端到端联合训练。

screenshot_2025-10-16_16-56-46.png


五、实验成果

  • 跟踪性能领先

在TUM RGB-D、7-Scenes和Replica等标准数据集上,SLAM-Former在未标定设置下显著优于现有方法,甚至在许多场景下超越需要相机标定的传统方法。

screenshot_2025-10-16_16-57-06.png

  • 重建质量大幅提升

在7-Scenes数据集上,SLAM-Former的重建精度达到0.017m,比其他方法提升约50%以上;在Replica数据集上同样取得最佳重建质量。

screenshot_2025-10-16_16-58-32.png

  • 前后端协作的有效性

消融实验证明,后端模块的引入显著提升了系统性能。前端单独使用会随时间的推移积累误差,而结合后端后,系统能保持全局一致性。

screenshot_2025-10-16_16-57-39.png


六、实时性能

SLAM-Former在保持高质量的同时,也满足了实时性要求:

  • 关键帧检测:< 100ms

  • 前端处理:< 100ms

  • 整体速度:> 10Hz

screenshot_2025-10-16_16-58-54.png


总结

SLAM-Former首次将完整SLAM能力整合到单一Transformer中,通过前端-后端的交替协作,在保持实时性的同时实现了全局一致性,在多个标准数据集上取得了领先的性能。

当前局限与未来方向:

后端全注意力的O(n²)复杂度限制可扩展性

需探索稀疏注意力、令牌合并等Transformer加速技术

支持纯局部前端模式,减少历史依赖

SLAM-Former为神经SLAM的发展开辟了新方向,证明统一的前端-后端设计能在单一模型中实现高效、一致的SLAM能力,为机器人的长期自主运行奠定了基础。

screenshot_2025-10-16_16-58-46.png


文档及项目地址​​​​​​​

文档地址:https://arxiv.org/abs/2509.16909Github 项目地址:https://tsinghua-mars-lab.github.io/SLAM-Former/

​​​​​​​

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值