Deep learning + SLAM小综述

最新推荐文章于 2025-06-17 12:46:38 发布

原创

最新推荐文章于 2025-06-17 12:46:38 发布 · 5.9k 阅读

59 ·

CC 4.0 BY-SA版权

文章标签：

#Deep Learning #SLAM

本文探讨了深度学习（DL）在Simultaneous Localization And Mapping（SLAM）中的应用，包括单目SLAM深度估计、相机重定位、前端特征匹配、端到端SLAM学习和语义SLAM。尽管DL在某些方面提高了SLAM的鲁棒性，但长期看，它不太可能完全取代SLAM。短期内，DL将更多地与传统方法融合，特别是在特征提取和匹配等方面发挥作用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

两个月前写的DL+SLAM研究现状综述，刚想起放到博客上。

随着近几年深度学习技术的火热，越来越多的研究工作尝试将深度学习引入到SLAM中去，有些工作也取得了较为不错的效果。本文尝试对相关工作进行简单梳理，并探讨深度学习+SLAM的可行性和发展方向。当然个人学识有限，如有疏漏之处望大家不吝指正。

首先上个人观点：长期来讲，深度学习有极大可能会去替代目前SLAM技术中的某些模块，但彻底端到端取代SLAM可能性不大。短期来讲（三到五年），深度学习不会对传统SLAM技术产生很大冲击。

下面结合具体工作谈谈这么说的理由。目前深度学习+SLAM有几个主要的研究方向：1）单目SLAM学习尺度/深度；2）相机重定位；3）前端提取特征和匹配4）端到端学习相机位姿；5）语义SLAM；

单目SLAM学习尺度/深度

单目纯视觉SLAM最大的问题是缺乏尺度信息，于是最直观的思路就是引入深度学习来脑补图像的尺度/深度信息。

代表工作其实有很多，但很大一部分是端到端架构，两个网络分别计算pose+depth直接出绝对轨迹，这类工作我放在后面端到端学习位姿部分中介绍，这里仅例举估计深度而不计算pose的工作。如TUM发表在CVPR17上的CNN-SLAM: Real-time dense monocular SLAM with learned depth prediction，将LSD-SLAM里的深度估计和图像匹配都替换成基于CNN的方法，取得了较为鲁棒的结果。

但个人认为用DL估算深度在原理上不是很站得住，DL擅长去做一些高层理解类的任务如特征估计图像匹配等，但深度估计太偏计算几何了。人眼去看一张图像也只能获得大概定性的深度远近，而无法得到精确定量的深度大小，这种任务对于DL来说实在有些强人所难了。而传统的深度计算方法，不考虑误差理论上是可以得到精确数学解的，深度学习无论如何也无法达到这样的解析精度。

实际上，相关工作的精度确实不高，CNN-SLAM在室内每个像素的平均误差约50cm，在室外则高达7米，相比传统三角化计算深度在精度上有一定差距。但优势在于鲁棒性较强，传统三角化所面临的视差太大太小问题在DL这里都不存在。