PoseNet2：Geometric loss functions for camera pose regression with deep learning 论文笔记

最新推荐文章于 2025-11-11 00:12:32 发布

原创

最新推荐文章于 2025-11-11 00:12:32 发布 · 3k 阅读

·

2

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文探讨了基于几何学和场景重投影误差的损失函数在相机位姿回归中的应用，提出了改进的Posenet模型，通过引入多视角几何方法，显著提高了室内及室外环境下相机重定位的性能。

剑桥大学 2017.5 相机重定位，indoor, outdoor，RGB，RGBD

个人总结：

这篇论文是posenet 的损失函数改进版本，但是性能得到了非常大的提升。论文很多细节都讲得非常好，非常详细清晰的说明了为何要选择这种函数/表示（比如选择四元数作为角度量的表示方法，r范数r的确定等）以及要考虑的因素（如是否为单射，结果空间的大小），这些细节往往决定了网络是否收敛以及最终的性能上限。在分析所选择的度量/函数时需要用到大量数学知识。

此外本文的实验比较细致，比如在讨论超参数β时通过实验发现分开模块训练反而会导致性能降低；以及通过实验得到 “β was an approximate function of the scene geometry“的intuition ，这样超参数β的意义就非常明了了。

1.论文摘要：

posenet使用简单的损失函数训练，其超参数需要finetuning

本文探究了用于学习相机位姿的基于几何学和场景重投影误差的简单损失函数。此外提出了一种自动学习用于回归位置损失和朝向损失的二者权重的方法。

利用几何信息，本文方法显著提高了posenet在室内以及室外数据集上的性能

2. 简介&相关工作：

传统基于sift特征的方法：变化场景下点云特征不够鲁棒，不能捕获全局上下文特征

posenet：预测相机位姿的端到端的训练模型，相比sift特征方法更加鲁棒，可以捕获上下文特征；速度也快；可扩展性强，不需要大型地标数据库。

posenet的缺点在于：输出位姿相比其他基于几何方法不够精确，论文认为原因在于posenet只单纯地把端到端的训练方法用在了相机重定位上，而丢弃了几何信息。

论文希望使用多视角几何方法的现有成果进一步提高posenet的性能

论文贡献：

将几何损失项融合进 posenet 的损失函数，提高了其性能

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。