计算机视觉life | SLAM的最终形态应该是什么样的？

最新推荐文章于 2025-11-25 12:11:01 发布

原创最新推荐文章于 2025-11-25 12:11:01 发布 · 626 阅读

23 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #计算机视觉 #YOLO #python #深度学习

深度学习拓展阅读专栏收录该内容

991 篇文章

订阅专栏

本文来源公众号“计算机视觉life”，仅用于学术分享，侵权删，干货满满。

原文链接：SLAM的最终形态应该是什么样的？

问题引入：SLAM的最终形态应该是什么样的？

当前的SLAM系统还存在很多问题，比如很多需要先建图，再实时定位。场景规模大了由于内存性能问题，很难建图。随着之后软硬件的发展，SLAM最终能否达到，一旦部署，终身运行，自己能够处理一些环境变化，信息的整合与鉴别。

回答一来自半闲居士

建图：输入传感器数据，输出一个地图。不断输入新的数据，就会不断输出新的地图。

这个过程叫“建图”还是叫“训练”，不重要。传感器数据就是很多的token，地图就是一张图。

地图也不必长的真的跟图一样，不必真的给人看，就是一堆数据或者一个模型。

定位：给定一个地图模型，输入传感器数据，输出该数据对应的pose。输入连续的数据，能输出连续的pose。

同样的，这个过程叫“定位”还是叫“推理”，也不重要。

中间计算过程也不重要，跑滤波器/图优化还是跑模型推理，都无所谓。

连续性是重要的。输入时间上相邻的数据，输出也得在空间上相邻。

这大概是比较本质意义上的slam。

现在传统方法的难点是：

传统方法原理没啥变化，都在搞corner case。搞不定的就真搞不定，没什么解法。

传统方法没法随数据增长有明显的性能提升。

新方法的问题是：

不够通用：性能跟数据分布相关，而传统方法几乎是无限通用的，跟数据无关。

性能不够：在千元级别硬件上，建图至少要到100ms/帧，定位至少要在20ms/帧，才有可能落地。目前训练至少达不到，推理过程兴许可以。

不好解bug：出了问题只能多加数据，不像传统方法通常能给出根本原因，知道怎么调。

大部分新方法都处在比较尴尬的情况：传统方法搞的定的，他可能百分之七八十搞的定。传统方法搞不定的，他可能也是百分之六七十搞的定。但下游的应用通常期望你在搞的定的场景下百分之百搞得定，搞不定的场景可以不卖。

当然这一切原因很可能就是，单纯的，数据不够多，模型不够大，端上性能不够强，然后slam也没怎么搞过几十T带真值pose的数据，花个几百万去训的。没这个动力。

未来主流肯定是数据驱动的方法。在滤波器人肉调那些噪声参数肯定比不上让GPU一口气帮你弄上几百万个数一块儿调（两者本质算是一回事）。

回答二来自forward

华为天才少年的往日峥嵘任历历在目，现在小米千万年薪招聘deepseek的95年ai萝莉的新闻更是冲上热搜。

相关链接：

https://www.zhihu.com/question/55901895/answer/51544581939?utm_psn=1858846542540173312

该如何从0(绝对的零)开始学习SLAM？

突破性的技术创新开始由当时的年轻人做出，技术迅速进步意味着过去的经验在快速贬值去魅。

后浪推前浪的速度在加快，曾经霸榜舆论的技术和人在新的技术周期出现后声量渐失。

可以预见，正有更年轻者摩拳擦掌，当红花旦不会永远红。就像流星一样，烟花易冷绚丽短暂却耀眼夺目难以忘怀。

成功者是少数，幸存者偏差，能飞回来的只有翅膀中弹的飞机，更多的年轻人正顶着烈日送外卖。聚光灯下的他和烈日下的他，最开始没有什么不同。

站在从业多年的算法工程师如何看待这个问题呢？

相关链接：

https://www.zhihu.com/question/666625418/answer/70000243116?utm_psn=1858846228835622913

选择slam会不会把路走窄了?

第一，悲观且乐观，天才万里挑一，总有年轻人，但人不总年轻。

第二，持续学习，如果无法做开拓者，那就紧紧跟随。

第三，思考技术和落地的关联，从只顾犁地的开荒猛牛进化为解决方案平台。

接着回到这个话题。随着新技术的产生，旧技术的稳定，变化悄然而生。对于SLAM技术本身而言，我感觉会有2点趋势：

与硬件集成，与感知合并

当一个事物成熟了，状态稳定了，不会修改了，提高效率降低成本的做法就是集成。举一个例子，当初那么贵，是因为它的每个零件都是独立的，制造一个LiDAR堪比作坊手搓私人定制。后来随着量铺开，越来越多的零件被集成到一起只提供特定功能，BOM清单越来越短，成本自然越来越低。

相关链接：

https://www.zhihu.com/question/269069887/answer/3618921890?utm_psn=1857547024167206912

能否推荐几个比较有研究价值的slam方向？

SLAM遗留问题是(高级语义)特征提取+匹配，一般需要采用深度学习的方式，站在组织和程序效率的角度看，这不应该由SLAM团队做，应该是感知做。既然感知已经做了从图片和LiDAR学习深层特征这个事情，那么SLAM特征对于他们而言只是多一个head或者分类的事情，对于SLAM团队而言则是重新造轮子。

相关链接：

https://www.zhihu.com/question/419264201/answer/3611060914?utm_psn=1857546679273795584

为什么目前落地的主流SLAM技术很少用神经网络进行特征提取？

而且SLAM提供的里程计是被部分感知任务需要的，SLAM和感知对数据的要求(同步标定配对)在同一个设备上又是一样的，因此往后会有更多的业务和组织重叠。

对SLAM从业人员而言，要么是技术路线变更实现华丽转身，技多不压身，多个备胎多条路，一碗水端平雨露均沾；要么是针对现有技术在不同产品上的开发和维持，不断打磨深耕，一条道走到黑，深情专一，做if之王。

相关链接：

https://www.zhihu.com/question/661361369/answer/3604463621?utm_psn=1857416502938066944

坚守SLAM还是拥抱大模型？

THE END !

文章结束，感谢阅读。您的点赞，收藏，评论是我继续更新的动力。大家有推荐的公众号可以评论区留言，共同学习，一起进步。