Hierarchical Scene Coordinate Classification and Regressionfor Visual Localization
芬兰阿尔托大学 , Facebook AI Research
这篇论文的工作应该是在DSAC++ 的基础上改的,且仅仅对其场景坐标回归网络进行了改进。在大场景中也是SOTA,同时模型足够紧凑,解决了模型尺寸和容量的问题。未来可以考虑综合其他模块的改进进一步提升性能(如RANSAC模块,使用DSAC++的自适应RANSAC,或NG-RANSAC)。
DSAC++中,使用一个场景坐标回归网络对像素点对应的场景坐标进行稠密预测,然后使用pnp-RANSAC求解出相机位姿。
本文认为DSAC++的场景坐标回归网络泛化性不够,只适用于小场景。在大场景中感受野受限(DSAC的image patches输入),增大感受野(DSAC++)又容易过拟合。
由此本文提出HSC-Net,一种由粗到细层级结构的场景坐标回归网络。解决了场景坐标回归网络容易产生局部场景混淆的问题。

整体框架与DSAC++一样,但是对其场景坐标回归网络进行了改进,使用分层架构。
改进后的场景坐标回归网络由两个分类分支和一个回归分支,
分类分支分别为每个像素预测其区域标签(即属于哪个区域),两层分类分支则可以达到对场景进行层级分割的目的,最后得到sub regions。回归分支则在此基础上再对其场景坐标的偏移量进行回归预测。使用偏移量而不是绝对场景坐标,因为这样网络更容易拟合。
网络的详细结构: 
base regression network 还是VGG_like的,但是在每一个输出层之前都加入了条件层(conditioning layer)。 条件层的想法来自于视觉推理的论文《FiLM: Visual reasoning witha general conditioning layer》。
条件层的结构如图:

首先有一个条件参数生成器(conditioning parameter generator),其以分类分支预测的标签图L为输入,输出缩放参数γ\gammaγ和平移参数β\beta

HSC-Net是一种用于视觉定位的场景坐标分类与回归网络,通过层级结构解决大场景中局部场景混淆问题,精度超越DSAC++。采用分层架构,包含两个分类分支和一个回归分支,利用条件层提高模型泛化能力。
最低0.47元/天 解锁文章
2万+





