论文地址:https://arxiv.org/abs/2402.14817
项目地址:https://github.com/jasonyzhang/RayDiffusion
---------------------------------------------------------------------------------------------------------------------------------
任务:
3D重建的估计相机姿势任务
挑战:
稀疏采样视图(<10)估计相机位姿
本文提出解决:
与现有的追求摄像机外部全局参数化的自上而下预测的方法相反,作者提出了一种相机姿态的分布式表示,将相机视为一束光线。这种表示允许与空间图像特征紧密耦合,从而提高姿态精度。
大致过程:
基于回归:
首先将image分为多个patch,其次将相机表示为射线,每条射线都以相机中心作为出发点,射向image中的对应patch中心,这时可以将相机表示为射线,同时射线的汇聚中心为相机中心
基于去噪模型:
经典diffusion model结构。将image每个patch所对应的射向(GT)进行加噪,然后image作为condition进行去噪,优化射线的位置。
贡献:
1. 将位姿预测任务重新表述为推断每个图像块的光束方程,而不是推断全局相机参数化。
2. 提出了一种简单的基于回归的方法,用于在稀疏采样视图中推断这种表示,并展示了即使是这种简单的方法也超过了最新技术。
3. 扩展了这种方法,通过学习基于光束的相机参数化的去噪扩散模型来捕捉相机分布,从而进一步提高了性能。
方法细节:
目标是从一组稀疏图像 {I1, . . . , IN } 中恢复相机。
- 1. 与之前工作中直接预测全局相机参数化的方法不同,作者提出了一种基于射线的表示,这种表示可以无缝地转换为经典表示。
- 2. 作者描述了一种基于回归的架构来预测基于射线的相机。