主要针对增强现实的应用场景。指出AR需要实时定位设备在环境中的方位。定位方案虽然已经有很多种,但多数方案要么在实际应用中存在诸多局限,要么代价太高难以普及。
背景
在AR应用中,由于虚拟物体的叠加目标通常为图像、视频,因此基于图像、视频等视觉信息的V-SLAM方案,对于确保虚实融合效果在几何上保持一致有着天然的优势。
主要针对单目相机的V-SLAM
- V-SLAM的目标: 同时恢复出每帧图像对应的相机运动参数C1,…, Cm,及场景三维结构(即世界坐标系下的三维点)x1,…,xn。
将世界坐标系下的三维点变换至具有特定位姿的相机的局部坐标系中,进而投影到图像中。 - V-SLAM算法需要将不同图像中对应于相同场景点的图像点匹配起来。
通过优化,得到一组最优的C1,…, Cm和x1,…,xn。使得所有Xj在Ci图像中的投影位置hij与观测到的图像点位置xij尽可能靠近。注意Xj是指世界坐标系下的三维点。Xij是指图像点位置。
由于V-SLAM需要进行图像特征的匹配,因此其稳定性严重依赖与场景特征的丰富程度。加入其它传感器特征可以很大程度上解决这个问题。目前最常用的是结合IMU数据(加速度、角速度)。此时可以引入运动方程。VI-SLAM中需要求解每一时刻的运动速度和IMU数据的偏移量。
国际上主流的V-SLAM方法:基于滤波器、基于关键帧BA、基于直接跟踪的V-SLAM。
基于滤波器的V-SLAM:将每一时刻t的系