【mip-NeRF】使用一组二维图像渲染3D场景视频（mip-NeRF论文复现）

原创

已于 2024-04-29 20:10:36 修改 · 1.6k 阅读

·

30

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #pytorch #计算机视觉 #cnn #深度学习 #回归

于 2024-04-23 15:28:35 首次发布

使用一组二维图像渲染3D场景视频（mip-NeRF论文复现）

【源码下载地址】

【更多技术内容将不断产出】

目录

使用一组二维图像渲染3D场景视频（mip-NeRF论文复现）

概述

NeRF（Neural Radiance Fields）是一种神经辐射场，用于将图像转换为3D场景表示。然而，在不同分辨率的训练或测试图像观察场景内容时，NeRF的渲染过程可能会产生过度模糊或伪影的图像。对于传统NeRF来说，使用多条光线对每个像素进行超采样的渲染方案是不实际的，因为渲染每条光线需要对MLP进行数百次查询。

本文提出的mip-NeRF模型，将NeRF扩展到连续值尺度上。通过向像素点投射一个锥形区域（而非光线）进行采样，mip-NeRF减少了伪影的产生，显著提高了NeRF对细节的表示能力，同时比NeRF快7%，仅为NeRF的一半大小。与NeRF相比，mip-NeRF在NeRF呈现的数据集上的平均误差率降低了17%，在多尺度变体数据集上降低了60%。此外，mip-NeRF还拥有与超采样NeRF相当的准确性，而速度快22倍。

原理介绍

传统NeRF的原理

NeRF使用一个连续的5D函数来表示场景，并使用少量的输入视图来优化这个函数以生成复杂场景的新视角。NeRF使用基于MLP的全连接神经网络来表示场景，输入为一个连续的5D坐标，包括空间位置(x,y,z)和观察视角(θ, φ)，输出为该空间位置的体密度σ和与视角相关的RGB颜色。通过沿着相机射线查询MLP并使用经典的体渲染技术将输出颜色和密度投影到图像中来生成新视图。
在这里插入图片描述

mip-NeRF的改进

使用圆锥追踪代替光线追踪，从而显著改善了抗锯齿（伪影）效果。
使用集成位置编码（IPE）特征代替传统的位置编码（PE）特征，实现了更高效的采样和尺度编码。
通过单一的多尺度模型（而不是NeRF中的每个尺度单独的模型），使得mip-NeRF的准确性、效率和简单性都得到了提高。

模型介绍

Mip-NeRF是一种用于解决神经辐射场（NeRF）中降采样和抗锯齿问题的改进模型，模型的处理过程如下：

对于场景中的每个像素，从相机的中心沿着像素中心的方向投射一个圆锥。
计算每个采样间隔的集成位置编码（IPE）特征，作为多层感知机（MLP）的输入。
MLP输出密度和颜色，用于渲染场景。

复现过程

笔者使用的硬件和系统环境如下：

显卡使用RTX4090 24G（实际使用15.25G左右）
CPU：I9-10900X
主存：46.8G
linux系统（ubuntu20.04.1-desktop）

*以上环境非最低要求，但尽量保证显卡显存16G以上，尽量使用linux桌面版系统

读者还需确保环境已正确安装nvidia显卡驱动（使用nvidia-smi

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Ryan2k 请作者喝一杯咖啡吧~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。