SLAM刚刚开始的未来之“工程细节”

本文探讨了SLAM技术的多个方面,包括稀疏SLAM、稠密SLAM、基于事件相机的SLAM、直接法SLAM和语义SLAM。作者指出,尽管SLAM算法日益成熟,但对硬件的依赖度增加,特别是对传感器同步、数据结构优化和计算效率的要求。此外,语义SLAM被视为未来发展方向,通过结合深度学习,提供更丰富的环境信息。文章还提到了双目视觉在生成稠密深度方面的进展。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

作者简介:张哲,PerceptIn联合创始人,纽约州立大学机器人方向博士。研发方向为地图重建、位置跟踪、机器人自主避障导航、设备端和云端的算法优化。2009-2014年在微软,2014-2016年初在Magic Leap工作。
责编:何永灿(heyc@youkuaiyun.com)
本文来源于《程序员》,未经允许不得转载。

SLAM最近三年随着算法不断成熟、硬件不断增强、应用场景逐渐丰富,在学术界和工业界都有长足发展。在六月初新加坡刚刚结束的国际机器人顶级会议之一的ICRA 2017 ,机器人研究的方向和种类繁多,但计算机视觉、SLAM(同步定位和建图)、建图、空中机器人(泛指各类无人机)、距离感知、RGB-D感知这几个话题的track加在一起已经占到所有track的一半左右。

笔者根据这次的大会所见所闻和自己在机器人领域十多年(尤其是最近一年多在PerceptIn全面推进软硬件一体化智能感知方案的产品化落地)的切身感受,在这里和大家很有针对性地分享现有各个种类的SLAM的工程细节(包括实现、优化、方案、选型、经验等等),以及从工业界的角度对SLAM相关技术的看法和思考。本文纯属个人观点,仅供大家参考。SLAM技术基本知识的详细介绍请参见笔者之前的文章,《SLAM刚刚开始的未来》

文末附全文相关paper下载链接。

稀疏SLAM

稀疏SLAM指的是前端用从图像提取来的较稀疏的特征点,而不是从深度摄像头来的稠密点云,或不提取特征点直接试图计算深度的直接法(后面有专门的讨论)。

稀疏SLAM发展到今天,在理论和实现上已经趋于成熟,借助六轴陀螺仪IMU(Inertial Measurement Unit)的视觉惯导融合的紧耦合方法已经成为标配。在几何方面,稀疏SLAM从前端到后端已经做得非常细致,以致于大量算法微调的细节出现在论文里面,在这里举一些比较典型的例子:

  • 特征点从哪里来的问题分为了KLT(Kanade-Lucas-Tomasi)pipeline和FREAK(Fast Retina Keypoint)pipeline:前者的原理是基于亮度恒定、时间连续、空间一致来对像素做跟踪匹配,这种方法几何信息算的好、跟踪时间长,但是会飘,后者相对不飘但跟踪时间短,其原因是FREAK的DoG(Difference of Gaussian)极值在相邻帧重复性差。特征点提取在Intel Core i7的台式机上640×480分辨率的图一般都在10ms以内,SSE优化后会更快,在一般的主流手机平台上如果做了NEON或GPU实现跟上相机的30fps帧率一般都没有问题。
  • 特征点被如何用的问题分为了SLAM特征点和MSCKF特征点:SLAM特征点被加入状态向量并被更新,MSCKF特征点在测量的相关公式中被忽视(marginalize)掉来生成位姿之间的约束。这样做的目的在于既保持了准确性又照顾到了处理时间不会太长。
  • 诸如此类还有很多如何用IMU来选好的特征点,如何在后端优化中融合IMU带来的约束,sliding window有多长,哪部分用NEON/GPU实现了,标定里面哪个参数最重要,预积分的处理在还算合理的情况怎么能更合理等等。

代表文章

《A Comparative Analysis of Tightly-coupled Monocular, Binocular, and Stereo VINS》:明尼苏达实验室的深入细致的对单目,双目但不重叠,重叠双目系统的性能分析,大量工程实现细节,还有和其他SLAM系统的对比,必读。

然而即使稀疏SLAM算法日趋成熟,但对硬件的依赖度反而变大,深层次的原因是因为算法抠的非常细,对硬件的要求也都是非常细致并明确的,比如大家偏好大视角镜头但大视角的边界畸变最严重,到底好不好用、怎么用、用什么模型;比如相机和IMU的同步最好是确定的硬件同步,不但希望能保证顺序和微秒级的精确,还希望能在每帧图的那一刹那正好有一帧IMU这样预积分才最准确;比如需要看的远又能拿到准确的尺度,那必须基线拉大,那么拉到多大呢,著名的做VINS(Visual Inertial Navigation System)的明尼苏达大学自己搭的硬件是26厘米基线的双目配上165度的大视角镜头,堪称是跟踪神器。

再比如宾州大学这次在ICRA发布的供SLAM跑分的数据集,采集数据用的是自己搭的一套硬件,由两个第二代Tango平板,三个GoPro相机,和一个VI Sensor(做这个的公司早已被GoPro收购),再加上AprilTags的marker跟踪,融合后的位姿信息作为真值。PerceptIn的第一代双目惯导模组在大会的展台区引来大家争相询问并购买,可见SLAM和各类基于计算机视觉的研究人员对一个好用的硬

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值