PoseNet: A Convolutional Network for Real-Time 6-DOF Camera Relocalization 2015论文笔记

PoseNet是一种基于深度学习的相机定位技术,使用神经网络从单目RGB图像中直接回归出相机的三维位置和姿态。该技术在室内和室外环境中均表现出色,精度分别达到0.5m/5°和2m/3°,处理速度为每帧5ms。PoseNet通过在大型分类数据集上进行迁移学习,并利用SFM方法自动生成训练标签,有效降低了人力成本。

剑桥大学 ,单目图像,RGB,室内室外,相机重定位

PoseNet是使用神经网络做相机定位的开山之作,之后的PoseNet2对其损失函数做了一些修改和提升。

看完PoseNet和PoseNet2,感觉这个团队写论文的风格都特别务实么得空话,全部是实验、数字、说明以及一些训练的tricks。

摘要

2015年的文章,对比的baseline是基于手工特征的方法,相比之下更为鲁棒。输入为单张RGB图像,模型可端到端训练。室外精度: 2m and 3◦,室内0.5m and 5◦。速度一帧5ms。PoseNet由23层的卷积层构成。

论文简介

基于appearance的重定位方法在此之前已经能够将相机进行粗略的定位到离散的位置区域,使得相机位姿的预测成为了一个需要解决的问题。这时PoseNet应运而生:PoseNet的主要贡献就是相机位姿回归器。主要通过两个主要技术实现:

  1. 使用SFM方法来自动生成训练标签,减轻了人力成本。然后通过迁移学习的方法在大型分类数据集上实现了由识别到定位的迁移训练。 与重新训练相比,即使训练集非常稀疏,也能在更短的时间内收敛到更低的误差。
  2. 对于CNN生成的特征表示的理解。PoseNet能够学到如何计算易于投影的特征向量,而这种特征可以泛化到测试集上。
PoseNet

模型输入为单目图像III,输出为坐标和四元数p=[x,q]p = [x,q]p=

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值