入选ECCV24:全局式SfM最新SOTA,GLOMAP重新定义SfM!

论文标题:

Global Structure-from-Motion Revisited

论文作者:

Linfei Pan1, Dániel Baráth1, Marc Pollefeys, Johannes L. Schönberger

本文由原paper一作Linfei Pan(潘林菲)博士指导授权【深蓝AI】编译首发,Linfei Pan博士就读于苏黎世联邦理工学院,她的个人主页为:https://lpanaf.github.io/

导读:

ETH&微软最新开源-全局式GLOMAP,它与以前的全局SfM系统相比,其核心区别在于全局定位步骤。不是先执行不适定的平移平均然后进行全局三角测量,而是进行联合相机和点位置估计。GLOMAP不仅在鲁棒性和准确性方面达到增量式COLMAP系统相当或更优的水平,同时还比COLMAP快几个数量级。©️【深蓝AI】编译

1. 研究背景

从一组图像中恢复3D结构和相机运动一直是计算机视觉研究的焦点,此类问题被称为运动恢复结构(Structure-from-Motion,SfM)。多年来已经形成了两种主要的解决范式:增量式和全局式。它们都以基于图像的特征提取和匹配开始,然后通过两视图几何估计构建输入图像的初始视图。

增量方法从两个视图开始重建,并通过逐步配准附加的相机图像和相关的三维结构来扩展重建。这一过程交替进行绝对相机姿态估计、三角测量和捆绑调整,尽管实现了高精度和鲁棒性,但由于重复的捆绑调整的高成本,限制了其可扩展性。

相反,全局方法通过联合考虑视图图中的所有两个视图几何形状,在单独的定向平均(rotation averaging)和平移平均(translation averaging)步骤中一次恢复所有输入图像的相机几何形状。通常,在最终的全局束调整(global bundle adjustment)步骤之前,将全局估计的相机几何形状用作3D结构三角测量的初始化。虽然增量方法被认为更准确、更稳健,但全局方法的重建过程更具可扩展性,在实践中速度更快。

增量和全局SfM之间准确性和鲁棒性差距的主要原因在于全局平移平均步骤。平移平均描述了从视图图中的相对姿态集估计全局相机位置的问题,其中之前通过旋转平均恢复了相机方向。这一过程在实践中面临三大挑战:

●第一个是尺度歧义:从估计的双视图几何获得的相对平移只能确定到某种尺度。

●第二是准确地将相对双视图几何分解为旋转和平移分量需要对相机内参的先验知识。

●第三个挑战出现在几乎共线的运动上,这导致了退化的重建问题。

研究者因此做了大量的研究工作致力于解决该问题。

主要贡献:

●引入了一种通用的全局SfM系统,称为GLOMAP。与之前的全局SfM系统的核心区别在于全局定位步骤。本文方法不是先进行不适定的平移平均,再进行全局三角测量,而是执行相机和点位置的联合估计。

●GLOMAP在保持全局SfM流程效率的同时,达到了当前最前进的增量SfM系统相似的鲁棒性和精度(如图1a所示)。

●与大多数之前的全局SfM系统不同,GLOMAP系统能够处理未知的相机内参(例如,来自互联网照片)并且稳健地处理顺序图像数据(例如,手持视频或自动驾驶汽车场景)。

图1|GLOMAP重构对比示例©️【深蓝AI】编译

2. 全局SfM相关研究

全局SfM流程通常由三个主要步骤组成:对应关系搜索(Correspondence Search)、全局相机姿态估计(Global Camera Pose Estimation)以及联合相机和结构细化(Global Structure and Pose Refinement)。

2.1 Correspondence Search

增量和全局SfM都是从输入图像 I = { I 1 , . . . , I N } \mathcal I = \{ I_1, ..., I_N\} I={ I1,...,IN}中提取显著的图像特征开始。一般来说,
检测出的特征点与从检测周围的局部上下文中提取的紧凑签名进行描述。接下来,开始在图像对 ( I i , I j ) (I_i,I_j) (Ii,Ij)之间搜索特征对应关系。然后通过稳健地恢复重叠对的双视图几何体来验证这些。基于摄像机的几何配置,这可能会得到一个用于平面场景的一般运动和纯摄像机旋转的单应矩阵 H i j H_{ij} Hij,或者用于一般场景和一般运动的基础矩阵 F i j F_{ij} Fij(未标定)和本质矩阵 E i j E_{ij} Eij(已标定)。当相机内参近似已知时,这些可以被分解为相对旋转 R i j ∈ S O ( 3 ) R_{ij} \in SO(3) RijSO(3)和平移 t i j ∈ R 3 t_{ij} \in \mathbb{R}^3 tijR3

与相关内点对应关系计算出的双视图几何定义了视图图G,作为全局重建步骤的输入。在GLOMAP的流程中,作者利用COLMAP进行对应关系搜索,并结合RootSIFT特征和可扩展的词袋图像检索来找到候选的重叠图像对,以便进行暴力匹配特征。

2.2 Global Camera Pose Estimation

全局相机位姿估计是区分全局SfM和增量SfM的关键步骤。全局SfM不是通过重复的三角测量和光束法平差(Bundle Adjustment,BA)来顺序配准相机,而是利用视觉图G作为输入,寻求一次性估计所有相机的位姿 P i = ( R i , c i ) ∈ S E ( 3 ) P_i = (R_i, c_i) \in SE(3) Pi=(Ri

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值