本文记录下笔者最近对NeRF在速度效果、动态、少视角泛化、无界和大场景五个大方向上经典改进算法的学习理解。如有错误,欢迎评论指出。
一.速度、效果
1.Mip-NeRF: A Multiscale Representation for Anti-Aliasing Neural Radiance Fields

用于解决在摄像机远离物体时,原始NeRF渲染结果存在的混叠问题,其原因在于点采样特征忽略了每条光线所观察的体积的形状和大小,因此两个不同的相机在不同比例下对同一位置进行成像可能会产生相同的模棱两可的点采样特征。基于该发现,替代单一射线为圆锥视锥体(Conical Frustum),此时像素的颜色是像素视锥体内所有传入辐射的积分。由于圆锥视锥体为连续的空间,直接求解该空间内所有采样点的位置编码的均值不方便,改用三维高斯分布来近似整个空间。根据高斯分布的特性,进一步计算位置编码对应的高斯分布(原先时一个点,现在是一个分布),最后从这个高斯分布采样位置编码,即计算期望作为最后的位置编码。此外,由于这种编码方式允许在不同的尺度上对场景进行描述,只需要一个MLP即可训练。
2. Instant neural graphics primitives with a multiresolution hash encoding

解决NeRF速度慢的问题,改进点主要在位置编码上。对于方向的位置编码,改用球谐函数(在图形学中,其与颜色关联强,学习起来更容易)。对于采样点的位置编码,原始编码需要自适应选择编码中某几维数据来生成体密度与颜色值,从而导致导致网络规模过大,计算效率低,现改为由显式的多分辨率网格进行插值和拼接得到(相当于再不同分辨率网格上已经做出了高低频的选择),且该网格的特征也由梯度回传学习而来。通过改进编码方式允许在不牺牲质量的情况下使用较小的网络,再加上纯cuda的原生加速实现,将NeRF的训练时间从小时级压缩到分钟级甚至是秒级。
二.动态
4.Dynamic Neural Radiance Fields for Monocular 4D Facial Avatar Reconstruction

适用场景为人头动相机不动,此时采样点位置是通过人头姿态来转换到一个Cananci

最低0.47元/天 解锁文章
415

被折叠的 条评论
为什么被折叠?



