【三维重建汇总】NeRF和GS重建中，如何排除干扰物？（提升质量）

杀生丸学AI

已于 2024-08-21 11:19:15 修改

阅读量1.5k

点赞数 11

分类专栏：三维重建与编辑文章标签：计算机视觉人工智能三维重建 AIGC 文本生成3D 稀疏三维重建

于 2024-08-19 23:17:26 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_45752541/article/details/141196939

版权

汇总最近NeRF与GS提升质量的论文

文章目录

前言
一、NeRF On-the-go：利用不确定性落地真实世界（CVPR'24）
二、Pixel-GS:像素感知的梯度密度控制(ECCV'24)
三、RobustNeRF：利用Robust 损失，排除干扰物（CVPR '23）
四、SpotlessSplats：去除瞬态干扰物的 3DGS（2024）

前言

野外场景的NeRF，如何排除干扰物？
训练一个传统的NeRF模型需要一组带有相机姿态的RGB图像，并且需要手动调整相机设置，如焦距、曝光和白平衡，还面临以下难题：

假设在捕捉过程中场景必须保持完全静止，没有任何如移动物体、阴影或其他动态元素的干扰物。然而，现实世界本质上是动态的，使得这种无干扰物的要求往往难以满足。
从采集的数据中去除干扰物也不是一件容易的事。这一过程涉及每个图像的逐像素标注，这对于大场景的长时间捕捉来说是非常耗费人力的。这突显了NeRF在动态、真实世界环境中实际应用的一个关键限制。

提示：以下是本篇文章正文内容，下面案例可供参考

一、NeRF On-the-go：利用不确定性落地真实世界（CVPR’24）

作者：ETH Z¨urich；微软
项目：https://rwn17.github.io/nerf-on-the-go/

摘要

.[Urban radiance fields.CVPR’22] 和 [Block-nerf CVPR’22] 对特定的运动对象使用预先训练好的语义分割模型，但该模型未能分割未定义的对象类。NeRF-W [26]通过体渲染，优化像素级的随机初始化的不确定性embedding。这种设计是次优的，因为它忽略了图像的先验信息，并纠缠了辐射场重建的不确定性。因此，它们需要引入短暂的embedding来解释干扰物。新的自由度的增加使系统调整复杂化，导致如Robustnerf 中讨论的帕累托最优场景(Pareto-optimal scenario)。像 $D^2NeRF$ [52]这样的动态NeRF方法可以分解静态和动态场景的视频输入，但在稀疏图像输入方面表现不佳。最近，RobustNeRF将干扰物建模为异常值，并在受控和简单的场景中展示了令人印象深刻的结果。然而，在复杂的野外场景中，它的表现显著下降。有趣的是，RobustNeRF在没有任何干扰物的情况下也表现不佳。

为了随意捕获的图像中重建NeRF（for in-the-wild scenes），而不管干扰物的比例。

为了实现目标，引入NeRF On-the-go，这是一个通用的即插即用模块，旨在有效地去除干扰物，允许从任何随意捕获的图像进行快速的NeRF训练。三个关键方面：

首先，利用DINOv2特征在特征提取中的鲁棒性和时空一致性，从中一个小的多层感知（MLP）预测每个样本像素的不确定性。
其次，利用结构相似性损失改进不确定性的优化，增强了前景干扰物和静态背景之间的区别。
第三，使用解耦训练策略将估计的不确定性纳入NeRF的图像重建目标，消除干扰物的，特别是在高遮挡场景中。

在这里插入图片描述

1.DINOv2特征的不确定性预测

图象特征抽取。过程公式化如下（i 跨越所有训练图像，C表示特征维数。还通过最近邻采样将特征映射到原始分辨率）：

在这里插入图片描述

不确定性预测。通过DINOv2特征图，确定每个采样射线r的不确定性。对应射线特征 $f = F_i (r)$ ，通过一个浅MLP估计不确定性： $β (r) = G (f)$ 。后面介绍如何将不确定性 $β (r)$ 作为一个加权函数集成到优化过程中。

不确定性正则化。为加强不确定性的时空一致性，在一个minibatch内引入基于特征向量余弦相似性的正则化项：每个采样光线 $r$ ，定义了一个邻域集合 $N (r)$ ，其中的相关特征向量与 $r$ 的特征 $f$ 具有高相似性，通过阈值η得到：

在这里插入图片描述

射线 $r$ 的refine不确定性计算为 $N (r)$ 的平均值：

在这里插入图片描述

添加一致性的正则化项，用来惩罚 $N (r)$ 内的不确定性的方差（variance）：
在这里插入图片描述

2.NeRF中干扰物去除的不确定性

本文假设与动态元素（干扰物）相关的像素应该具有较高的不确定性，而静态区域相反。

不确定性收敛分析。开创性工作NeRF in the Wild中，损失写成输入和渲染之间的：
在这里插入图片描述
不确定性 $β (r)$ 被视为一个权重函数。正则化项对于平衡第一项和防止 $β (r) = \infty$ 的平凡解至关重要。求一个偏导：

在这里插入图片描述
将导数设为0，得到不确定性的最优封闭解：

这揭示了：不确定性预测，以及渲染图和输入图的误差之间成正比。

然而， 使用等式4中的 $ℓ 2$ 损失时 ，当干扰物和背景的颜色接近时（如图3(d)）,根据等式6，这些区域的预测不确定性也会很低。这阻碍了基于不确定性的干扰物去除的有效性，并导致了渲染图像中的云伪影。

SSIM的损失（增强不确定性的学习）。SSIM由三个测量值组成：亮度、对比度和结构相似度，能捕获局部结构和对比度上的差异，如图3，能够区分场景元素：

在这里插入图片描述
其中， $P$ 和 $\hat{P}$ 分别是从输入图像 $C (r)$ 和渲染图像和 $\hat{C}(r)$ 中采样的patch。进一步修改等式7为（更加强调动态元素和静态元素之间的区别）：

在这里插入图片描述

在这里插入图片描述

在更新的SSIM公式的基础上，我们引入了为不确定性学习定制的新损失：

在这里插入图片描述
$L_{uncer}$ 专门用于训练不确定性估计MLP $G$ 。这是至关重要的，因为它允许我们将NeRF模型的训练与不确定性预测解耦。这种解耦确保了学习到的不确定性对各种类型的干扰物具有鲁棒性。

3.优化

在这里插入图片描述
以上NeRF损失是等式(4)没有使用正则化项，因为 $L_{uncer}$ 已经阻止了不确定性的平凡解（ $β (r) = \infty$ ）。通过将梯度流从 $L_{uncer}$

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。