【论文精读】ACE-Zero_scene coordinate reconstruction: posing of image c-优快云博客

本文链接：https://blog.youkuaiyun.com/YuhsiHu/article/details/146190868

今天读一篇ECCV 2024 oral的文章，Scene Coordinate Reconstruction: Posing of Image Collections via Incremental Learning of a Relocalizer，文章提出方法从无位姿图像中恢复相机参数，作者来自Niantic和Oxford。

项目地址：ACE0 (ACE Zero)

文章目录

Abstract

本文提出了一种基于visual relocalizer的新颖结构，从无位姿图像中恢复相机参数（姿态和内参）。不同于传统基于特征匹配的SfM（如COLMAP），作者将SfM过程重新解释为基于 场景坐标回归 (Scene Coordinate Regression) 的增量重定位问题。该方法能无需位姿先验、高效地从上千张图像中重建隐式场景表示，并能达到接近传统SfM的姿态估计精度，最终通过新视角合成验证其效果。
在这里插入图片描述

1 Introduction

背景：SfM长期以来依赖局部特征匹配，如SIFT等，虽然精度高但依赖明确的特征和大量匹配。
挑战：近年来，NeRF等神经隐式表示方法崛起，但基于学习的SfM方法存在需要位姿先验、顺序输入或无法扩展到大规模数据的问题。
创新点：
- 将Incremental SfM重新定义为visual relocalization的反复应用与优化过程。
- 提出 ACE0 框架，从一张图像出发，无需位姿先验，迭代式优化图像的相机参数与隐式场景。

2 Related Work

1. Structure-from-Motion (SfM)

经典SfM基于图像特征匹配与三角化，结合Bundle Adjustment。
Incremental SfM从少量图像出发，逐步扩展。
Global SfM同步估计所有图像位姿。
现有挑战：特征匹配昂贵、对初始化敏感、难以扩展。

2. Visual Relocalization

场景坐标回归 (Scene Coordinate Regression) 能将图像像素直接预测为3D坐标，从而通过PnP+RANSAC估计相机位姿。
现有学习方法如ACE，表明使用SCR训练很快，但需位姿监督。
本文使SCR无需位姿先验，通过自监督实现。

3. Image-Based Rendering

NeRF虽擅长新视角合成，但需要已知位姿，且训练慢。一些基于learning的方法也在试图估算pose，但是因为显存限制，也只能估算sparse sets的图像。
本文方法比NeRF类方法训练速度快。

3 Method

目标：从一组无位姿RGB图像中重建场景，并估计所有图像的相机位姿和内参。
输入：

一组无序 RGB 图像 $\mathcal{I} = \{I_i\}$ ，未知相机内外参。

输出：

每张图像的相机参数 $\mathcal{H} = \{(K_i, T_i)\}$ ：
内参 $K_i$ （焦距等， $\times 3$ 矩阵）。
外参 $T_i$ （rotation和translation， $\times 4$ 矩阵）。

整个pipeline如下图：
在这里插入图片描述

1. Scene Coordinate Regression (SCR)

输入图像patch，输出对应3D坐标。
通过预测的2D-3D点对，结合PnP+RANSAC估计相机位姿。
无需已知位姿，通过自监督（重投影误差）优化。

2. 增量训练流程

从单张图像+初步深度 (如 ZoeDepth) 开始训练SCR。
每一轮：
1. Relocalization: 使用当前SCR尝试为更多图像估计位姿。
2. Neural Mapping: 使用新增图像优化SCR，联合优化相机位姿和场景坐标回归模型。
3. Pose Refinement: 通过MLP对位姿进一步微调以减少重投影误差。

在这里插入图片描述