视觉SLAM的前段后端最详细的梳理（硕士入门知识框架更新）

最新推荐文章于 2025-07-14 20:55:06 发布

原创

最新推荐文章于 2025-07-14 20:55:06 发布 · 6.5k 阅读

108 ·

CC 4.0 BY-SA版权

文章标签：

#计算机视觉 #slam #算法

本文详细介绍了视觉SLAM（Simultaneous Localization and Mapping）技术的基本原理与最新进展，包括视觉里程计的不同方法、SLAM后端优化技术、单目视觉里程计的初始化、运动估计流程等。此外还探讨了视觉与IMU融合的优势与挑战。

文章目录

视觉SLAM的组成结构

视觉里程计（VO）

-特征点法 -构建稀疏点云地图

特征点法提取图像中稀疏的特征点，通过描述子完成帧间匹配，然后根据特征点间 2D 到 2D、2D 到 3D 或是 3D 到 3D 的约束关系使用对极几何、PNP 或 ICP 等算法求解位姿。

Klein G, Murray D. Parallel Tracking and Mapping for Small AR Workspaces[C]// IEEE & Acm International Symposium on Mixed & Augmented Reality. 2008.

Klein 提出的 PTAM（Parallel Tracking and Mapping）创新性的实现了跟踪与建图过程的并行化，并首次有了前端与后端的概念：前端为跟踪线程，根据获取的图像数据实时估计位姿；后端引入了关键帧机制，实现对地图的非线性优化。但 PTAM 也存在着应用场景小、特征易跟丢等缺陷。

Mur-Artal R , Montiel J M M , Tardos J D . ORB-SLAM: a Versatile and Accurate Monocular SLAM System[J]. IEEE Transactions on Robotics, 2015, 31(5):1147-1163.

Mur-Artal R , Tardos J D . ORB-SLAM2: An Open-Source SLAM System for Monocular, Stereo, and RGB-D Cameras[J]. IEEE Transactions on Robotics, 2017:1-8.

2015 年 Mur-Artal 等人提出的 ORB-SLAM，相较于 PTAM 的双线程，它采用了并行跟踪，局部建图，闭环检测三线程：

并行跟踪线程用于完成基于模型评分的地图初始化、特征匹配及位姿估计；

局部建图部分提出了一个宽进严出的关键帧筛选策略，并对构建的局部地图进行优化；

闭环检测使用词袋模型判断当前场景是否曾经出现过，并实现了对全局地图进行优化，对于要求全局一致性的应用场景有着优秀的效果。

目前在基于特征点法的 SLAM 系统中，ORB-SLAM 中被认为非常稳定与出色，后续的一些研究也以它为标准。

-直接法 -构建稠密或半稠密的地图 --需要使用 RGB-D 传感器

直接法引入了光流跟踪的思想，在光度不变假设的基础上，以最小化光度误差为优化目标，对位姿变量进行求解。

Engel J, Schöps T, Cremers D. LSD-SLAM: Large-Scale Direct Monocular SLAM[J]. 2014.

Engel J, Koltun V, Cremers D. Direct Sparse Odometry.[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2018, 40(3):611-625.

Engle 等人于 2014 年提出的 LSD-SLAM（Large Scale Direct Monocular SLAM），实现了一种 CPU 级别的单目半稠密地图重建，并且在单目深度估计上考虑到三角化的不确定性而采用了一种新颖的滤波形式。

LSD-SLAM 对于相机的快速运动、曝光变换鲁棒性较低，2016 年 Engle 等人提出了另一个单目稀疏直接法视觉里程计 DSO（Direct Sparse Odometry），针对直接法易受光照干扰的缺点，DSO 采用光度标定模型，它在优化中会动态的估计光度参数，从而使得算法对曝光变换更加鲁棒。

Forster C , Pizzoli M , Scaramuzza D . SVO: Fast Semi-Direct Monocular Visual Odometry[C]// IEEE International Conference on Robotics & Automation. IEEE, 2014.

SVO（Semi-direct Visual Odometry）是由 Forster 等人于 2014 年提出的半直接法视觉里程计，应用在携带俯视视角单目相机的无人机平台。因为它首先对图像提取角点，然后再对角点采用直接法求位姿，所以称之为半直接法。SVO 在纹理丰富的平面场景中有着较好的定位精度，并且能达到极快的运行速度。