汇总最近NeRF与GS提升质量的论文
文章目录
前言
野外场景的NeRF,如何排除干扰物?
训练一个传统的NeRF模型需要一组带有相机姿态的RGB图像,并且需要手动调整相机设置,如焦距、曝光和白平衡,还面临以下难题:
-
假设在捕捉过程中场景必须保持完全静止,没有任何如移动物体、阴影或其他动态元素的干扰物。然而,现实世界本质上是动态的,使得这种无干扰物的要求往往难以满足。
-
从采集的数据中去除干扰物也不是一件容易的事。这一过程涉及每个图像的逐像素标注,这对于大场景的长时间捕捉来说是非常耗费人力的。这突显了NeRF在动态、真实世界环境中实际应用的一个关键限制。
提示:以下是本篇文章正文内容,下面案例可供参考
一、NeRF On-the-go:利用不确定性落地真实世界(CVPR’24)
作者:ETH Z¨urich;微软
项目:https://rwn17.github.io/nerf-on-the-go/
摘要
.[Urban radiance fields.CVPR’22] 和 [Block-nerf CVPR’22] 对特定的运动对象使用预先训练好的语义分割模型,但该模型未能分割未定义的对象类。NeRF-W [26]通过体渲染,优化像素级的随机初始化的不确定性embedding。这种设计是次优的,因为它忽略了图像的先验信息,并纠缠了辐射场重建的不确定性。因此,它们需要引入短暂的embedding来解释干扰物。新的自由度的增加使系统调整复杂化,导致如Robustnerf 中讨论的帕累托最优场景(Pareto-optimal scenario)。像 D 2 N e R F D^2NeRF D2NeRF [52]这样的动态NeRF方法可以分解静态和动态场景的视频输入,但在稀疏图像输入方面表现不佳。最近,RobustNeRF将干扰物建模为异常值,并在受控和简单的场景中展示了令人印象深刻的结果。然而,在复杂的野外场景中,它的表现显著下降。有趣的是,RobustNeRF在没有任何干扰物的情况下也表现不佳。
为了随意捕获的图像中重建NeRF(for in-the-wild scenes),而不管干扰物的比例 。
为了实现目标,引入NeRF On-the-go,这是一个通用的即插即用模块,旨在有效地去除干扰物,允许从任何随意捕获的图像进行快速的NeRF训练。三个关键方面:
- 首先,利用DINOv2特征在特征提取中的鲁棒性和时空一致性,从中一个小的多层感知(MLP)预测每个样本像素的不确定性。
- 其次,利用结构相似性损失改进不确定性的优化,增强了前景干扰物和静态背景之间的区别。
- 第三,使用解耦训练策略将估计的不确定性纳入NeRF的图像重建目标,消除干扰物的,特别是在高遮挡场景中。
1.DINOv2特征的不确定性预测
图象特征抽取。过程公式化如下(i 跨越所有训练图像,C表示特征维数。还通过最近邻采样将特征映射到原始分辨率):
不确定性预测。通过DINOv2特征图,确定每个采样射线r的不确定性。对应射线特征 f = F i ( r ) f = F_i (r) f=Fi(r),通过一个浅MLP估计不确定性: β ( r ) = G ( f ) β(r)= G(f) β(r)=G(f) 。后面介绍如何将不确定性 β ( r ) β(r) β(r)作为一个加权函数集成到优化过程中。
不确定性正则化。为加强不确定性的时空一致性,在一个minibatch内引入基于特征向量余弦相似性的正则化项:每个采样光线 r r r,定义了一个邻域集合 N ( r ) N(r) N(r),其中的相关特征向量与 r r r的特征 f f f具有高相似性,通过阈值η得到:
射线 r r r的refine不确定性计算为 N ( r ) N(r) N(r)的平均值:
添加一致性的正则化项,用来惩罚 N ( r ) N(r) N(r)内的不确定性的方差(variance):
2.NeRF中干扰物去除的不确定性
本文假设与动态元素(干扰物)相关的像素应该具有较高的不确定性,而静态区域相反。
不确定性收敛分析。开创性工作NeRF in the Wild中,损失写成输入和渲染之间的:
不确定性 β ( r ) β(r) β(r) 被视为一个权重函数。正则化项对于平衡第一项和防止 β ( r ) = ∞ β(r) =∞ β(r)=∞ 的平凡解至关重要。求一个偏导:
将导数设为0,得到不确定性的最优封闭解:
这揭示了:不确定性预测,以及渲染图和输入图的误差之间成正比。
然而, 使用等式4中的 ℓ 2 ℓ2 ℓ2损失时 ,当干扰物和背景的颜色接近时(如图3(d)),根据等式6,这些区域的预测不确定性也会很低。这阻碍了基于不确定性的干扰物去除的有效性,并导致了渲染图像中的云伪影。
SSIM的损失(增强不确定性的学习)。SSIM由三个测量值组成:亮度、对比度和结构相似度,能捕获局部结构和对比度上的差异,如图3,能够区分场景元素:
其中, P P P和 P ^ \hat{P} P^分别是从输入图像 C ( r ) C(r) C(r)和渲染图像和 C ^ ( r ) \hat{C}(r) C^(r)中采样的patch。进一步修改等式7为(更加强调动态元素和静态元素之间的区别):
在更新的SSIM公式的基础上,我们引入了为不确定性学习定制的新损失:
L u n c e r L_{uncer} Luncer专门用于训练不确定性估计MLP G G G。这是至关重要的,因为它允许我们将NeRF模型的训练与不确定性预测解耦。这种解耦确保了学习到的不确定性对各种类型的干扰物具有鲁棒性。
3.优化
以上NeRF损失是等式(4)没有使用正则化项,因为 L u n c e r L_{uncer} Luncer已经阻止了不确定性的平凡解( β ( r ) = ∞ β(r) =∞ β(r)=∞)。通过将梯度流从 L u n c e r L_{uncer} Lu