[非卷积5D中文翻译及学习笔记] 神经辐射场 NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

最新推荐文章于 2025-09-06 15:42:55 发布

原创

最新推荐文章于 2025-09-06 15:42:55 发布 · 1.2w 阅读

86 ·

CC 4.0 BY-SA版权

文章标签：

#计算机视觉 #神经网络 #机器学习 #人工智能 #深度学习

提出了一种使用神经辐射场(NeRF)表示场景的新方法，通过优化潜在的连续体场景函数来合成复杂场景的新视图，实现了高分辨率的真实感渲染。NeRF使用全连接深度网络表示场景，输入为5D坐标，输出为体积密度和视相关发射辐射率。

不使用3D建模，使用静态图片进行训练，用(非卷积)深度网络表示场景的5D连续体表示，再通过ray marching进行渲染。
本中文翻译使用“机器学习+人工校准/注解”的方式完成。
本人非英语专业，水平有限，如有错误敬请指出。
仅作个人学习笔记之用，转载请注明出处 https://editor.youkuaiyun.com/md?articleId=105890744
约定文中用markdown标注的引用均为个人笔记，原文出处见 [非卷积5D] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis：https://blog.youkuaiyun.com/ftimes/article/details/105348410

文章目录

使用神经辐射场视觉合成来表示场景
摘要
1.介绍
2. RELATED WORK
3. NEURAL RADIANCE FIELD SCENE REPRESENTATION
4.VOLUME RENDERING WITH RADIANCE FIELDS
5. OPTIMIZING A NEURAL RADIANCE FIELD
6. Results
7.Conclusion
8. 相关效果展示

效果gif图：

在这里插入图片描述

使用神经辐射场视觉合成来表示场景

摘要

我们提出了一种通过使用稀疏的输入视图集优化潜在的连续体场景函数来合成复杂场景的新视图的方法，从而获得最新的结果。我们的算法使用一个完全连接（非卷积）的深网络来表示场景，其输入是一个连续的5D坐标（空间位置（x，y，z）和观察方向（θ，ü））并且其输出是该空间位置处的体积密度和视相关发射辐射率。我们通过沿着相机光线查询5D坐标来合成视图，并使用经典的体绘制技术将输出的颜色和密度投影到图像中。由于体绘制是自然可微的，因此优化表示所需的唯一输入是一组具有已知相机姿势的图像。我们描述了如何有效地优化神经辐射场以呈现复杂几何和外观的真实感场景的新视图，并展示了在神经渲染和视图合成方面优于先前工作的结果。视图合成结果最好作为视频查看，因此我们敦促读者查看我们的补充视频以进行令人信服的比较。

5D：spatial location (x,y,z) and viewing direction (θ,ϕ)

Keywords:
scene representation, view synthesis, image-based rendering, volume rendering, 3D deep learning

1.介绍

在这项工作中，我们通过直接优化连续5D场景表示的参数以最小化绘制一组捕获图像的误差，以一种新的方式解决了长期存在的视图合成问题。我们将场景表示为一个连续的5D函数，该函数输出空间中每个点（x，y，z）在每个方向（θ，ü）上发射的辐射度，以及每个点上的密度，该密度的作用类似于控制光线通过（x，y，z）时累积的辐射度的差分不透明度。我们的方法优化了一个没有卷积层（通常称为多层感知器或MLP）的深度全连接神经网络，通过从单个5D坐标（x，y，z，θ，ü）回归到单个体积密度和视相关RGB颜色来表示此函数。为了从一个特定的角度渲染这个神经辐射场，我们：1）让摄像机光线穿过场景生成一组采样的三维点，2）使用这些点及其相应的二维观察方向作为神经网络的输入，生成一组颜色和密度的输出，3）使用经典的体绘制技术将这些颜色和密度累积到二维图像中。由于这个过程是自然可微的，我们可以使用梯度下降来优化这个模型，通过最小化每个观察到的图像和从我们的表示中呈现的相应视图之间的误差来表示复杂的场景。通过将多个视图之间的错误最小化，可以鼓励网络通过为包含真实底层场景内容的位置分配高体积密度和精确颜色来预测场景的相干模型。图2显示了整个传递途径。
在这里插入图片描述

我们发现，针对复杂场景优化神经辐射场表示的基本实现并没有收敛到足够高的分辨率表示，并且在每个摄像机光线所需的采样数方面效率低下。我们通过使用位置编码转换输入5D坐标来解决这些问题，该位置编码使MLP能够表示更高频率的函数，并且我们提出了分层采样过程来减少充分采样这种高频场景表示所需的查询数。

radiance emitted in each direction (θ,ϕ) at each point (x,y,z) in space 辐射度定义？

classical volume rendering techniques是什么技术？

outputs the radiance emitted in each direction (θ,ϕ) at each point (x,y,z) in space, and a density at each point which acts like a differential opacity controlling how much radiance is accumulated by a ray passing through (x,y,z).
==>> 场景用5D表示 ==>>输入5D，输出每个点每个方向的辐射度以及用于控制查分透明度的密度。

这里分层采样hierarchical sampling是如何实现的？

我们的方法继承了体表示的优点：两者都可以表示复杂的现实世界的几何和外观，并且非常适合使用投影图像进行基于梯度的优化。关键的是，我们的方法旨在克服在高分辨率下建模复杂场景时，离散体素网格的存储成本过高的问题。

体表示 volumetric representations
离散体素网格 discretized voxel grids （曾经我以为词汇量上去了，英语阅读就不是问题，后来我遇到了discretized voxel grids）

总之，我们的主要技术贡献是：

一种将复杂几何和素材的连续场景表示为5D神经辐射场的方法，参数化为基本的MLP网络。
一种基于经典体绘制技术的可微绘制方法，用于从标准RGB图像优化这些表示。这包括分层采样策略，将MLP的容量分配给具有可见场景内容的空间。
一种位置编码，将每个输入的5D坐标映射到一个更高的维空间中，

最低0.47元/天解锁文章

19 条评论

xhsoldier 2022.01.26
materials 材质，材料。OpenGL渲染里面常用词汇，用于描述物体表面积的漫反射和折射。

孙博洋cool 2022.01.07
博主，您好我也想向您请教一些关于这方面的问题，可以麻烦您添加我的微信吗15566270459 关于输入XYZ坐标怎么来的，我一直有点困惑
- 图南i回复江南蜡笔小新 2022.02.28
  楼主换成啥方向了[face]emoji:010.png[/face]
- 江南蜡笔小新回复孙博洋cool 2022.01.07
  抱歉，我已经不做这个方向了，你可以在评论区找找其他同志

清川先生 2021.01.15
关于那个classical volume rendering techniques，可以参考一作本人的一个talk：https://www.youtube.com/watch?v=dPWLybp4LL0，这里面详细介绍了

回味温存 2020.10.26
请问，输入的xyz位置坐标，是如何获取的？我看了好几遍也没看出来，你看明白了嘛？
- weixin_47623016回复回味温存 2021.06.15
  请问是哪几篇呢方便说一下吗
- 回味温存回复江南蜡笔小新 2020.10.29
  好的，我去瞅瞅
- 江南蜡笔小新回复回味温存 2020.10.26
  他之前还发过几篇类似的论文，我记得是要连着那几篇一起看，现在记不大清了

weixin_41027759 2020.05.25
问一个外行的问题：这个技术目前有没有现成的App可以让我这样喜欢玩立体摄影的人直接使用的？
- 江南蜡笔小新回复weixin_41027759 2020.05.27
  [reply]weixin_41027759[/reply]https://github.com/bmild/nerf
- weixin_41027759回复weixin_31734907 2020.05.26
  [reply]weixin_31734907[/reply]个人的理解，这个NeRF的一大特点是不使用3D建模，看它上面放的动态3D视效样片的每一帧画面，似乎都能达到照片级的真实度，这个应该是目前3D建模的效果所不能及的。
- weixin_41027759回复江南蜡笔小新 2020.05.26
  [reply]ftimes[/reply]有没有链接可以分享一个？
- weixin_31734907回复weixin_41027759 2020.05.26
  [reply]weixin_41027759[/reply]Meshroom
- 江南蜡笔小新回复weixin_41027759 2020.05.25
  [reply]weixin_41027759[/reply]有没有现成的APP我暂时不清楚，不过这篇论文中的一位作者在Github上放了基于TensorFlow的实现代码，你如果有相关方面的基本知识，可以去看看有没有训练好的模型，有的话≈可以直接用了，没有的话用它的样本训练一下应该也不会太差，只是可能会花一些时间。

傻巴度 2020.05.04
yummylee319

傻巴度 2020.05.04
可以加个微信不，最近在看这篇，有些地方看的有点懵
- 江南蜡笔小新回复傻巴度 2020.05.06
  [reply]qq_28609387[/reply]实不相瞒，我只是一个初学者，可能帮不到你什么忙。但我很乐意与你相互交流，如有需要，可以站内私信我～
- 傻巴度回复傻巴度 2020.05.04
  [reply]qq_28609387[/reply]yummylee319