SLAM的最终形态应该是什么样的?

作者 | 半闲居士  编辑 | 3D视觉之心

原文链接:https://www.zhihu.com/question/601158699/answer/1928517284160316781

点击下方卡片,关注“3D视觉之心”公众号

第一时间获取3D视觉干货

建图:输入传感器数据,输出一个地图。不断输入新的数据,就会不断输出新的地图。

  1. 这个过程叫“建图”还是叫“训练”,不重要。传感器数据就是很多的token,地图就是一张图。

  2. 地图也不必长的真的跟图一样,不必真的给人看,就是一堆数据或者一个模型。

定位:给定一个地图模型,输入传感器数据,输出该数据对应的pose。输入连续的数据,能输出连续的pose。

  1. 同样的,这个过程叫“定位”还是叫“推理”,也不重要。

  2. 中间计算过程也不重要,跑滤波器/图优化还是跑模型推理,都无所谓。

  3. 连续性是重要的。输入时间上相邻的数据,输出也得在空间上相邻。

这大概是比较本质意义上的slam。


现在传统方法的难点是:

  1. 传统方法原理没啥变化,都在搞corner case。搞不定的就真搞不定,没什么解法。

  2. 传统方法没法随数据增长有明显的性能提升。

新方法的问题是:

  1. 不够通用,性能跟数据分布相关,而传统方法几乎是无限通用的,跟数据无关。

  2. 性能不够:在千元级别硬件上,建图至少要到100ms/帧,定位至少要在20ms/帧,才有可能落地。目前训练至少达不到,推理过程兴许可以。

  3. 不好解bug,出了问题只能多加数据,不像传统方法通常能给出根本原因,知道怎么调。

大部分新方法都处在比较尴尬的情况:传统方法搞的定的,他可能百分之七八十搞的定。传统方法搞不定的,他可能也是百分之六七十搞的定。但下游的应用通常期望你在搞的定的场景下百分之百搞得定,搞不定的场景可以不卖。

当然这一切原因很可能就是,单纯的,数据不够多,模型不够大,端上性能不够强,然后slam也没怎么搞过几十T带真值pose的数据,花个几百万去训的。没这个动力。

未来主流肯定是数据驱动的方法。在滤波器人肉调那些噪声参数肯定比不上让GPU一口气帮你弄上几百万个数一块儿调(两者本质算是一回事)。

重建神器

我们找到了最具性价比的3D扫描仪,支持方便的二次开发,传感器有激光雷达、超高精度9DOF IMU、RTK、双广角相机、深度相机。

微信号:oooops-life

直接扫描下方二维码咨询

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值