今天读一篇ACM MM 2024的文章,TimeNeRF: Building Generalizable Neural Radiance Fields across Time from Few-Shot Input Views,作者来自阳明交通大学。
文章目录
Abstract
文章试图构建generalizable NeRF,并且sparse view的setting,能够合成在时间t的新视角。具体而言,希望能够在任意时间、任意视角合成新视图的通用神经渲染方法,尤其在只有少量输入视图的情况下仍能表现优异。该方法针对当前 NeRF 技术难以处理时间动态变化和少样本泛化的问题,提出一种结合多视图立体视觉、神经辐射场、内容-环境解耦的新型框架,能够在无需针对每个场景重新优化的前提下,生成能够随时间变化的高质量视图,且实现日夜等复杂时间动态的平滑过渡。
1 Introduction
虽然NeRF及其衍生技术在NVS上已取得突破,但存在两个突出问题:
- 依赖单场景大量数据:需要数百张不同角度图片。
- 无法处理时间动态:无法在日夜等时间变化场景中生成新视角。
为此,我们提出:
- Few-shot 学习:仅通过少量视图合成新视图。
- 场景泛化:适应不同拍摄条件的新场景。
- 时间动态建模:无需额外时间拍摄的前提下,生成任意时间的新视图。
核心思想:
- 构建内容辐射场Content Radiance Field,屏蔽环境变化因素。
- 结合时间相关信息,生成 时间依赖的辐射场Time-dependent Radiance Field,最终通过体积渲染生成视图。
2 Related Works
介绍了NeRF、Few-shot NeRF和Time Translation的方法。
3 Proposed Method
3.1 Preliminaries
介绍了NeRF渲染的基础知识
3.2 Training Process
使用two-stage的训练策略来分开内容和环境变化。
stage 1: content extractor, style extractor, and generator。利用DRIT++分离时间和内容特征,生成伪真图像作为训练辅助。
stage 2: TimeNeRF。以内容特征和参考图像的风格特征联合训练时间相关辐射场。
3.3 Appearance-Agnostic Geometry Extractor
使用被pre-trained content extractor移除天气等环境因素后的input views,提取特征,构建cost volume,还是follow MVS那一套。
3.4 Implicit Scene Network
得到geometry features后其实已经可以predict colors and densities ,但是这可能会导致模型失去建模随时间变换的style的能力。所以我们提出了一个content radiance field, an implicit scene representation without environmental change factors。受到GeoNeRF的启发,我们把提取到的geometry feature集合以预测each sample point’s density and content features。
3.5 Factors Extraction Module
使用两个MLP,一个拿来预测时间,一个拿来预测与时间不相关的信息。使用0-2派来映射一天24小时的循环,这个映射是unsupervised的方式训练的。
3.6 Time-Dependent Radiance Field Constructor
这个模块的部分是把把每个point的3D content feature转换成与时间相关的颜色
3.7 Loss Functions
MSE loss 基本重建误差
Pseudo stylized loss 与伪真图像对齐
Loss term of
Δ
t
\Delta t
Δt 保证颜色与时间的单调、周期关系
Reconstruction loss 时间匹配时复现输入样貌
Total loss
4 Experiments
4.1 Datasets
结合 Ithaca365(多视图、多天气)和 Waymo(不同时段)联合训练,无需时间标签。
4.2 Implementation Details
4.3 Novel View Synthesis Across Time
支持任意时间视角生成,实验显示平滑过渡效果优异,超越 CoMoGAN、HiDT 等。
4.4 View Consistency
提出 Warped LPIPS 和 RMSE 评估跨视角一致性,TimeNeRF 显著优于对比方法。
4.5 Few-Shot View Synthesis
与 GeoNeRF 和 MVSNeRF 对比,TimeNeRF 在少样本下生成的视图质量更优或相当。
4.6 Ablation Study
时间相关 Loss 和双分支网络对时间一致性、平滑性的关键作用。
5 Conclusion and Discussion
TimeNeRF是首个结合时序、任意视角、少样本泛化的 NeRF 框架,能够:
- 不依赖 per-scene 训练。
- 平滑实现昼夜等复杂时间动态。
- 适应多场景、多条件。
未来改进方向:
- 更精细的光照与阴影动态建模。
- 动态场景(如行人、车辆)一致性处理。
- 融合扩散模型解决数据稀缺问题。