基于深度学习的相机重定位方法总结 2020.2.23

最新推荐文章于 2025-01-09 22:08:57 发布

原创

最新推荐文章于 2025-01-09 22:08:57 发布 · 2.6k 阅读

15 ·

CC 4.0 BY-SA版权

本文探讨了基于深度学习的相机重定位技术，分析了传统特征点、机器学习及深度学习三种方法的优缺点。深度学习方法，尤其是图像检索法，因CNN的高维拟合特性和泛化性成为主流。未来趋势将融合CNN与几何信息，提升定位精度和鲁棒性。

基于深度学习的相机重定位方法总结

随着自动驾驶、机器人技术的发展与普及，环境感知、导航决策等技术正逐渐受到工业界和学术界的重视。环境感知是机器人在环境中交互过程中最基础、最关键的环节。为了使机器人在与环境交互过程中能够像人一样使用丰富的先验知识来执行场景实别、自我定位等任务，进而在当前输入信号有限的前提下大大提高其定位与建图的准确性与鲁棒性，机器人必须能够利用以往输入的信息进行推断，结合当前的输入得到准确的相机位姿，即相机重定位技术。相机重定位对于机器理解环境信息、记忆环境信息、检索再利用环境信息有着至关重要的作用。

现有的相机重定位技术主要分为基于传统特征点的方法、基于机器学习的方法和基于深度学习的方法三个流派。其中基于传统特征点的方法通过在关键帧中提取低层级的手工特征点（SIFT、ORB），利用这些特征点进行匹配，得到相机位姿。然而，基于传统特征点的方法所提取的点云特征不够鲁棒，不能捕获全局上下文特征，在环境复杂如少纹理、光照变化大、有遮挡的场景中表现的很差，且计算量大。

基于机器学习的方法有一些已经得到了应用。这些方法基于随机森林实现2D到3D的匹配，通过RANSAC算法恢复出6自由度的相机位姿。在融合了可导的RANSAC以及全卷积网络之后，其鲁棒性得到了进一步的提升。然而，基于机器学习的方法要求在训练时输入深度信息，这对模型的适应性与泛化性是不利的。

基于深度学习的方法主要使用深度神经网络来计算相机位姿。PoseNet使用端到端的训练模型直接预测相机位姿，可以捕获上下文特征，相比sift特征方法更加鲁棒；且速度快，可扩展性强，不需要大型地标数据库。PoseNet2在前作的基础上，引进几何损失函数项，提高了其重定位性能。然而，相比与基于传统特征点的重定位方法，使用深度学习模型直接预测相机位姿的方法由于使用CNN代替了几何技术进行匹配，丢弃了几何信息，其定位精度有所下降。此外，由于本质上CNN学习的是像素点与位姿之间的映射，而位姿是依赖于所选择的坐标系的，因此当不同场景中坐标系不同时，要想CNN直接预测相机的绝对位姿，需要将CNN分场景训练好然后应用到对应的任务中，极大地限制了其应用。

另一种基于深度学习的方法为基于检索的方