Hierarchical Scene Coordinate Classification and Regression for Visual Localization

本文提出用于场景坐标预测的分层结构回归网络,有别于基于特征的方法,可直接从图像中回归场景6DOF位姿。采用由粗到细的分层网络结构,适用于较大规模场景。介绍了网络流程、调节层、损失函数,并进行了小场景和大场景实验。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

@inproceedings{li2020hscnet,

title = {Hierarchical Scene Coordinate Classification and Regression for Visual Localization},

author = {Li, Xiaotian and Wang, Shuzhe and Zhao, Yi and Verbeek, Jakob and Kannala, Juho},

booktitle = {CVPR},

year = {2020}

}

总结:大致思想:本文提出一种用于场景坐标预测的分层结构回归网络。有别于基于特征的方法,场景坐标回归不需要通过匹配描述符建立2D-3D的对应关系,而是直接从图像中回归场景6DOF位姿。由于现有场景坐标回归网络只考虑一个小的局部图像块,使得网络不适用于大规模场景,本文使用由粗到细的分层网络结构,使得网络可以适用于较大规模的场景。

img

img

左图,网络流程:(1)colmap建图获得点云;(2)k-means划分点云;(3)输入图片经过卷积层后进入分类层,每个像素进行分类(K类)获得Label-map;(4)参考FiLM(Feature-wise Linear Modulation,注:FiLM层通过简单的特征仿射变换来影响神经网络计算)方法,Label-map和feature-map作为输入形成调节层,以达到将较粗层次上预测的标签信息反馈到较细的层次上。(5)最后一个分类层结束后,进入回归层,输出6DOF位姿。

右图,调节层

img

γ和β由生成器网络生成,与x(feature-map)结构一致,公式里的乘法是哈达玛积(直接点乘)。

损失函数:两部分组成,Label-map的损失函数(欧式距离)+图片位姿的损失函数(交叉熵)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-XqNsWzJH-1606286702801)(https://gitee.com/caiyingfeng/cloudimage/raw/master/images/20201125141902.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-IT7adClf-1606286702805)(https://gitee.com/caiyingfeng/cloudimage/raw/master/images/20201125141902.png)]

上图中两层分类层和一层回归层的总损失函数,w1,w2,w3为权重。

img

img

实验

小场景

img

大场景

img

大场景

[外链图片转存中…(img-ultdX10d-1606286702817)]

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值