SLAM的最终形态应该是什么样的？

最新推荐文章于 2025-11-24 15:31:00 发布

转载最新推荐文章于 2025-11-24 15:31:00 发布 · 37 阅读

·

0

·

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247674184&idx=2&sn=86935a332d14d025fe34436766922806&chksm=cfd185c93c5ed06cb9048f036bfe2f6113a35cb9e4a67f64e58382eab824204cd54b5300dd9d&scene=126&sessionid=0

作者 | 半闲居士编辑 | 3D视觉之心

原文链接：https://www.zhihu.com/question/601158699/answer/1928517284160316781

点击下方卡片，关注“3D视觉之心”公众号

第一时间获取3D视觉干货

建图：输入传感器数据，输出一个地图。不断输入新的数据，就会不断输出新的地图。

这个过程叫“建图”还是叫“训练”，不重要。传感器数据就是很多的token，地图就是一张图。
地图也不必长的真的跟图一样，不必真的给人看，就是一堆数据或者一个模型。

定位：给定一个地图模型，输入传感器数据，输出该数据对应的pose。输入连续的数据，能输出连续的pose。

同样的，这个过程叫“定位”还是叫“推理”，也不重要。
中间计算过程也不重要，跑滤波器/图优化还是跑模型推理，都无所谓。
连续性是重要的。输入时间上相邻的数据，输出也得在空间上相邻。

这大概是比较本质意义上的slam。

现在传统方法的难点是：

传统方法原理没啥变化，都在搞corner case。搞不定的就真搞不定，没什么解法。
传统方法没法随数据增长有明显的性能提升。

新方法的问题是：

不够通用，性能跟数据分布相关，而传统方法几乎是无限通用的，跟数据无关。
性能不够：在千元级别硬件上，建图至少要到100ms/帧，定位至少要在20ms/帧，才有可能落地。目前训练至少达不到，推理过程兴许可以。
不好解bug，出了问题只能多加数据，不像传统方法通常能给出根本原因，知道怎么调。

大部分新方法都处在比较尴尬的情况：传统方法搞的定的，他可能百分之七八十搞的定。传统方法搞不定的，他可能也是百分之六七十搞的定。但下游的应用通常期望你在搞的定的场景下百分之百搞得定，搞不定的场景可以不卖。

当然这一切原因很可能就是，单纯的，数据不够多，模型不够大，端上性能不够强，然后slam也没怎么搞过几十T带真值pose的数据，花个几百万去训的。没这个动力。

未来主流肯定是数据驱动的方法。在滤波器人肉调那些噪声参数肯定比不上让GPU一口气帮你弄上几百万个数一块儿调（两者本质算是一回事）。

重建神器

我们找到了最具性价比的3D扫描仪，支持方便的二次开发，传感器有激光雷达、超高精度9DOF IMU、RTK、双广角相机、深度相机。

微信号：oooops-life

直接扫描下方二维码咨询

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。