核心思想
- 在没有相机位姿的情况下,仅凭几张稀疏图像重建三维场景
- 不估计相机位姿,而是在规范空间(Canonical Space)中预测3D高斯
动机
当前FF-GS方法依赖输入图像的精确相机位姿,在实际应用和稀疏视图场景下非常不便
部分方法将位姿估计和三维重建整合在一个pipeline,交替优化,然而由于位姿估计的不准确,导致误差累积问题,不够准确的位姿估计导致不够好的三维重建,从而进一步影响位姿估计的质量
方法
NoPoSplat 的方法可以分解为几个关键部分:网络架构、核心的规范空间预测、相机内参嵌入以及训练方式。
规范空间高斯预测
这也是最核心创新点。
传统方法首先为每张输入图像在其各自的局部相机坐标系中预测一组3D高斯,然后,利用已知的相机位姿(旋转矩阵 R 和平移向量 t)将这些局部的3D高斯变换到一个统一的世界坐标系中,最后将它们融合在一起形成最终场景。也就是局部空间->全局空间的思想,这种方式不仅依赖精确的位姿估计,而且容易在边界产生伪影。
NoPoSplat 彻底抛弃了上述流程。它设定了一个规范空间(Canonical Space),具体来说,就是以第一张输入图像的相机坐标系作为全局参考坐标系 。
(思考:重建质量是否会受所选全局参考坐标系影响?)
网络被训练来直接为所有输入视图预测在这个统一的规范空间下的3D高斯分布 。这意味着,无论输入的是第几张图,网络输出的3D高斯中心点坐标 (μ) 都是相对于第一张图的相机来定义的 。
这种方式避免了位姿变换以及带来的误差。
模型架构
方法采用一个简单的ViT编解码器架构,解码器中各个视图的特征会通过交叉注意力与其他视图的特征交互,实现多视图信息融合。
该架构采用两个输出头,分别预测高斯中心和高斯参数,其中高斯参数头还接收RGB图像的快捷连接以保留图像纹理信息。
该架构没有采用任何几何先验如对积极和或者代价体。
此外,还把相机内参用线性层转换成特征向量后与图像的tokens拼接,作为编码器的输入。
940

被折叠的 条评论
为什么被折叠?



