PoseNet: A Convolutional Network for Real-Time 6-DOF Camera Relocalization

博客介绍训练的神经网络,可从单张图像端到端回归相机位置和姿态,无需额外工程操作或图优化。室外精度达2m、3°,室内达0.5m、5°偏差。利用迁移学习,自动生成训练标签,避免传统SLAM流程,还探讨了损失函数和网络结构。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

https://zhuanlan.zhihu.com/p/53044278

https://zhuanlan.zhihu.com/p/45483149

abstract: 训练了一个神经网络可以从单张图像端到端的回归出相机的位置和姿态,有别于SLAM,不再需要额外的工程操作或者图优化。室外精度达到2m,3°。室内精度达到0.5m,5°偏差。网络是23层,利用transfer learning from recognition to re-localization 在目标分类的网络上pre-train的模型。比依赖sift关键点提取,匹配的方法更robust。

Contribution:

1)利用transfer learning 任务从目标识别,迁移到re-localization。

  1. 利用structure from motion根据图像序列/视频,自动生成训练label(camera pose),减少了人类标注的工作。

3)避免传统SLAM的pipeline: 比如需要存储densely spaced keyframes, appearance-based localization, landmarked-based pose estimation, frame-to-frame feature correspondence.

Loss function:

在这里插入图片描述
作者实验发现把位置和姿态分成两个网络进行训练的效果并不好,猜测是位置和姿态的耦合关系,所以还是要放在一起训练。

网络结构:

GoogLeNet pre-trained for classification 改造成regression问题。

  1. replace the three softmax classfiers with affine regressors.

  2. 在最终输出层之前插入了一个全连接层,before the regressor.用来当作local feature vector.

一个比较有趣的应用就是你在指定区域拍张照后, 然后得到google map里街景的一个结果
http://mi.eng.cam.ac.uk/projects/relocalisation/#results

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值