作者 | 半闲居士 编辑 | 3D视觉之心
原文链接:https://www.zhihu.com/question/601158699/answer/1928517284160316781

点击下方卡片,关注“3D视觉之心”公众号
第一时间获取3D视觉干货
建图:输入传感器数据,输出一个地图。不断输入新的数据,就会不断输出新的地图。
这个过程叫“建图”还是叫“训练”,不重要。传感器数据就是很多的token,地图就是一张图。
地图也不必长的真的跟图一样,不必真的给人看,就是一堆数据或者一个模型。
定位:给定一个地图模型,输入传感器数据,输出该数据对应的pose。输入连续的数据,能输出连续的pose。
同样的,这个过程叫“定位”还是叫“推理”,也不重要。
中间计算过程也不重要,跑滤波器/图优化还是跑模型推理,都无所谓。
连续性是重要的。输入时间上相邻的数据,输出也得在空间上相邻。
这大概是比较本质意义上的slam。
现在传统方法的难点是:
传统方法原理没啥变化,都在搞corner case。搞不定的就真搞不定,没什么解法。
传统方法没法随数据增长有明显的性能提升。

新方法的问题是:
不够通用,性能跟数据分布相关,而传统方法几乎是无限通用的,跟数据无关。
性能不够:在千元级别硬件上,建图至少要到100ms/帧,定位至少要在20ms/帧,才有可能落地。目前训练至少达不到,推理过程兴许可以。
不好解bug,出了问题只能多加数据,不像传统方法通常能给出根本原因,知道怎么调。

大部分新方法都处在比较尴尬的情况:传统方法搞的定的,他可能百分之七八十搞的定。传统方法搞不定的,他可能也是百分之六七十搞的定。但下游的应用通常期望你在搞的定的场景下百分之百搞得定,搞不定的场景可以不卖。
当然这一切原因很可能就是,单纯的,数据不够多,模型不够大,端上性能不够强,然后slam也没怎么搞过几十T带真值pose的数据,花个几百万去训的。没这个动力。
未来主流肯定是数据驱动的方法。在滤波器人肉调那些噪声参数肯定比不上让GPU一口气帮你弄上几百万个数一块儿调(两者本质算是一回事)。
重建神器
我们找到了最具性价比的3D扫描仪,支持方便的二次开发,传感器有激光雷达、超高精度9DOF IMU、RTK、双广角相机、深度相机。
微信号:oooops-life
直接扫描下方二维码咨询

1715

被折叠的 条评论
为什么被折叠?



