不使用3D建模,使用静态图片进行训练,用(非卷积)深度网络表示场景的5D连续体表示,再通过ray marching进行渲染。
本中文翻译使用“机器学习+人工校准/注解”的方式完成。
本人非英语专业,水平有限,如有错误敬请指出。
仅作个人学习笔记之用,转载请注明出处 https://editor.youkuaiyun.com/md?articleId=105890744
约定文中用markdown标注的引用均为个人笔记,原文出处见 [非卷积5D] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis:https://blog.youkuaiyun.com/ftimes/article/details/105348410
文章目录
效果gif图:

使用神经辐射场视觉合成来表示场景
摘要
我们提出了一种通过使用稀疏的输入视图集优化潜在的连续体场景函数来合成复杂场景的新视图的方法,从而获得最新的结果。我们的算法使用一个完全连接(非卷积)的深网络来表示场景,其输入是一个连续的5D坐标(空间位置(x,y,z)和观察方向(θ,ü))并且其输出是该空间位置处的体积密度和视相关发射辐射率。我们通过沿着相机光线查询5D坐标来合成视图,并使用经典的体绘制技术将输出的颜色和密度投影到图像中。由于体绘制是自然可微的,因此优化表示所需的唯一输入是一组具有已知相机姿势的图像。我们描述了如何有效地优化神经辐射场以呈现复杂几何和外观的真实感场景的新视图,并展示了在神经渲染和视图合成方面优于先前工作的结果。视图合成结果最好作为视频查看,因此我们敦促读者查看我们的补充视频以进行令人信服的比较。
5D:spatial location (x,y,z) and viewing direction (θ,ϕ)
Keywords:
scene representation, view synthesis, image-based rendering, volume rendering, 3D deep learning
1.介绍
在这项工作中,我们通过直接优化连续5D场景表示的参数以最小化绘制一组捕获图像的误差,以一种新的方式解决了长期存在的视图合成问题。我们将场景表示为一个连续的5D函数,该函数输出空间中每个点(x,y,z)在每个方向(θ,ü)上发射的辐射度,以及每个点上的密度,该密度的作用类似于控制光线通过(x,y,z)时累积的辐射度的差分不透明度。我们的方法优化了一个没有卷积层(通常称为多层感知器或MLP)的深度全连接神经网络,通过从单个5D坐标(x,y,z,θ,ü)回归到单个体积密度和视相关RGB颜色来表示此函数。为了从一个特定的角度渲染这个神经辐射场,我们:1)让摄像机光线穿过场景生成一组采样的三维点,2)使用这些点及其相应的二维观察方向作为神经网络的输入,生成一组颜色和密度的输出,3)使用经典的体绘制技术将这些颜色和密度累积到二维图像中。 由于这个过程是自然可微的,我们可以使用梯度下降来优化这个模型,通过最小化每个观察到的图像和从我们的表示中呈现的相应视图之间的误差来表示复杂的场景。通过将多个视图之间的错误最小化,可以鼓励网络通过为包含真实底层场景内容的位置分配高体积密度和精确颜色来预测场景的相干模型。图2显示了整个传递途径。

我们发现,针对复杂场景优化神经辐射场表示的基本实现并没有收敛到足够高的分辨率表示,并且在每个摄像机光线所需的采样数方面效率低下。我们通过使用位置编码转换输入5D坐标来解决这些问题,该位置编码使MLP能够表示更高频率的函数,并且我们提出了分层采样过程来减少充分采样这种高频场景表示所需的查询数。
- radiance emitted in each direction (θ,ϕ) at each point (x,y,z) in space 辐射度定义?
- classical volume rendering techniques是什么技术?
- outputs the radiance emitted in each direction (θ,ϕ) at each point (x,y,z) in space, and a density at each point which acts like a differential opacity controlling how much radiance is accumulated by a ray passing through (x,y,z).
==>> 场景用5D表示 ==>>输入5D,输出每个点每个方向的辐射度以及用于控制查分透明度的密度。- 这里分层采样hierarchical sampling是如何实现的?
我们的方法继承了体表示的优点:两者都可以表示复杂的现实世界的几何和外观,并且非常适合使用投影图像进行基于梯度的优化。关键的是,我们的方法旨在克服在高分辨率下建模复杂场景时,离散体素网格的存储成本过高的问题。
体表示 volumetric representations
离散体素网格 discretized voxel grids (曾经我以为词汇量上去了,英语阅读就不是问题,后来我遇到了discretized voxel grids)
总之,我们的主要技术贡献是:
- 一种将复杂几何和素材的连续场景表示为5D神经辐射场的方法,参数化为基本的MLP网络。
- 一种基于经典体绘制技术的可微绘制方法,用于从标准RGB图像优化这些表示。这包括分层采样策略,将MLP的容量分配给具有可见场景内容的空间。
- 一种位置编码,将每个输入的5D坐标映射到一个更高的维空间中,

提出了一种使用神经辐射场(NeRF)表示场景的新方法,通过优化潜在的连续体场景函数来合成复杂场景的新视图,实现了高分辨率的真实感渲染。NeRF使用全连接深度网络表示场景,输入为5D坐标,输出为体积密度和视相关发射辐射率。
最低0.47元/天 解锁文章
1070





