【论文笔记】:no pose,no problem-基于dust3r输出GS参数实现unpose稀疏重建

1.摘要

        我们引入了 NoPoSplat,这是一种前馈模型,能够从未设置的稀疏多视图图像中重建由 3D 高斯参数化的 3D 场景。 我们的模型专门使用光度损失进行训练,在推理过程中实现了实时 3D 高斯重建。

        为了消除重建过程中对准确pose的需要,我们将一个输入视图的本地相机坐标锚定为规范空间,并训练网络来预测该空间内所有视图的高斯基元。 这种方法不需要将高斯基元从局部坐标变换到全局坐标系,从而避免了与每帧高斯和姿态估计相关的错误。

        为了解决尺度模糊性,我们设计并比较了各种embedding方法,最终选择将相机内参embedding,并将其与图像token连接起来作为模型的输入,从而实现准确的场景尺度预测。 然后,我们利用重建的 3D 高斯函数进行新的视图合成和姿态估计任务,并提出了一个coarse-to-fine的pipeline来实现精确的姿态估计。

2.问题背景与相关工作

稀疏视角下的pose问题        

可泛化三维重建中,当前sota的工作(包括pixelsplat,mvsplat)旨在使用前馈网络预测 3D 辐射场,无需按场景优化即可实现逼真的结果,但它们需要精确的相机pose作为网络的输入,一般来说,pose是利用SFM从密集采集的图片数据中估计得到的,比如colmap,但是,在稀疏视角的条件下,很难利用SFM方法得到稀疏视角图片的pose,故而进一步进行GS重建也是无从谈起!并且,依赖于SFM的pipeline,会大量增加推理训练的时间,而且,如果场景中含有无纹理或者纹理很少或者没有足够重叠的共视图片都会导致SFM过程的失败,进而也是无法GS重建!

几种当前工作的不足与我们的工作

        最近的Dbarf,Flowcam,Hong et al., 2024等工作,将pose估计和3D场景重建整合起来,然而效果比sota的mvsplat(需要pose已知)差。性能差距源于姿态估计和场景重建之间交替的顺序过程,错误的pose使得重建退化,反过来又影响了pose估计。我们的方法证明完全不依赖相机姿势重建场景是可行的,从而消除了姿势估计的需要。然而,与 DUSt3R 不同,我们表明,可推广的重建网络可以仅在没有GT的深度信息的情况下使用光度损失进行训练,因此可以利用更广泛可用的视频数据。

        在pixelsplat和mvsplat中,高斯球的坐标需要首先在局部坐标系(相机坐标系)下得到,然后再利用pose变换transform进世界坐标,最后再把所有高斯球堆(fuse)到一起。我们的做法是,直接把第一个view的坐标系作为规范坐标系(世界坐标系),所以避免了相机变换带来的误差以及重建质量的损失。与变换然后融合的pipeline相比,我们要求网络直接在规范空间内学习不同视图的融合,从而消除显式坐标系变换引入的错位。

        我们在实验中观察到,pose-free方法在渲染新视角时存在显著的尺度不准确问题,我们后续发现,这和相机的焦距长度有关系,因为重建效果和图片质量相关,而图片质量受焦距影响!因此,我们设计并且比较了三种不同的方法用来编码相机内参,最后发现,把相机内参编码成为feature token然后和图片token进行concatenate就能使得网络很合理的预测scale,达到很好的效果

        mvsnerf,murf,pixelsplat各有千秋,但是这些基于几何先验的方法需要相机pose输入,并且输入视角之间要有重叠,相反,我们的网络基于vit,无需几何先验,效率更高,效果更好。最近的工作(wang,frahm)联合优化了pose和场景表达,但是需要一个粗略的初始化pose,另外,稀疏可泛化方法在推理的过程中需要pose,这是一个很大的挑战,因为这些姿势在测试期间在现实世界的应用中通常是不可用的。

        虽然两视图pose估计方法(wang,edstedt)存在,但是他们在无纹理区域或者共视很少的情况下会失败。一些最近的新视角合成方法(lee,smith,hong)尝试两阶段来解决此任务:首先估计位姿,然后重建场景。但是这些方法落后于以pose作为输入的方法,因为初始化pose估计引入了噪声,也进而影响了重建质量。

        我们的工作首先直接得到3dgs场景,然后再回头预测pose,避免了pose估计中的潜在噪声,还能更好的获得场景重建 ,一个之前的工作splatt3r也是在全局坐标系中得到了3dgs,但是依赖于一个冻结的mast3r,这在新视角合成中是不合适的,因为masr3r难以平滑地从不同的视角合并场景内容。另外,splatt3r需要深度GT,所以他不能用于没有深度GT或者相机pose的大规模视频数据。

        对于位姿估计,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值