视觉SLAM十四讲第 2 讲初识 SLAM_slam 视觉十四讲-优快云博客

本文链接：https://blog.youkuaiyun.com/tmiger/article/details/144614937

1. SLAM 是什么

SLAM 是 Simultaneous Localization and Mapping 的缩写，中文译作“同时定位与地图构建”。它是指搭载特定传感器的主体，在没有环境先验信息的情况下，于运动过程中建立环境的模型，同时估计自己的运动。如果传感器主要为相机，就称为“视觉 SLAM”。

SLAM 问题的本质：对运动主体自身和周围环境空间不确定性的估计。

2. 自主运动的两大基本问题

1）我在什么地方？-定位

2）周围环境是什么样子？-建图

视觉 SLAM ，主要是指如何用相机解决定位和建图问题。

利用相机在场景中运动的过程中得到一系列连续变化图像，进行定位和地图构建。

3. 相机

按照相机的工作方式，可分为单目（Monocular）、双目（Stereo）和深度相机（RGB-D）三个大类。

3.1 单目相机

只使用一个摄像头进行 SLAM 的做法称为单目 SLAM（Monocular SLAM）。

优点：结构简单、成本低；

照片，是以二维的形式记录了三维的世界，这个过程中丢掉了深度（距离）信息。

单目SLAM中，必须移动相机，才能估计它的运动（motion）和场景中物体的远近和大小。

视差（Disparity）：相机移动时物体在图像上的运动形成视差，通过视差可以判断物体的远近，是一个相对的值。

尺度（Scale）：单目SLAM估计的轨迹和地图将与真实的轨迹和地图相差一个因子，称为尺度。

尺度不确定性（Scale Ambiguity）：单目SLAM无法仅凭图像确定真实尺度的性质。

缺点：平移之后才可以计算深度，无法确定真实尺度；根本原因是通过单张图片无法确定深度。

3.2 双目相机

目的：通过某种手段测量物体离我们的距离，克服单目无法知道距离的缺点，通过单个图像恢复场景的三维结构，消除尺度不确定性。

组成：双目相机由两个单目相机组成，这两个相机之间的距离（称为基线（Baseline））是已知的。通过基线可以估计每个像素的空间位置。双目相机测量到的深度范围与基线相关。基线距离越大，能够测量到的就越远。

缺点：配置与标定均较为复杂，其深度量程和精度受双目的基线与分辨率限制，而且视差的计算非常消耗计算资源

3.3 深度相机

特点：用红外光或飞行时间（Time-of-Flight，ToF）原理，通过主动向物体发射光并接收返回光，测出物体离相机的距离。是通过物理的测量手段，所以相比于双目可节省大量的计算量。

缺点：测量范围窄、噪声大、视野小、易受日光干扰、无法测量透射材质等，主要用于室内 SLAM

4. 经典视觉SLAM框架

整个视觉 SLAM 流程分为以下几步：
1. 传感器信息读取。在视觉 SLAM 中主要为相机图像信息的读取和预处理。在机器人中，还可能有码盘、惯性传感器等信息的读取和同步。
2. 视觉里程计 (Visual Odometry, VO)。视觉里程计任务是估算相邻图像间相机的运动，以及局部地图的样子。VO 又称为前端（Front End）。
3. 后端优化（Optimization）。后端接受不同时刻视觉里程计测量的相机位姿，以及回环检测的信息，对它们进行优化，得到全局一致的轨迹和地图。由于接在 VO 之后，又称后端（Back End）。
4. 回环检测（Loop Closing）。回环检测判断机器人是否曾经到达过先前的位置。如果检测到回环，它会把信息提供给后端进行处理。
5. 建图（Mapping）。根据估计的轨迹，建立与任务要求对应的地图。

如果工作环境限定在静态、刚体，光照变化不明显、没有人为干扰的场景，这个 SLAM 系统已经相当成熟