Abstract
作者提出了Street-view NeRF可以同时合成大型的静态背景和动态前景。文章亮点有以下
1. 作者重构了场景表达函数并优化了相机位姿
2. 作者提出了一种基于重投影的深度方法用来剔除depth outliers
3. S-NeRF可以重建动态车辆
4. 在nuscenes 和waymo上做了实验验证
作者把S-NeRF归类为Large-scale NeRF和Depth Supervised NeRF
Method
Camera Pose Processing
Pose Refinement:
作者使用了NeRF--在原有数据集的基础上做了pose的进一步优化(与此相似也可以进行其他的操作,见 GitHub - awesome-NeRF/awesome-NeRF: A curated list d 的pose estimation部分)
Moving Vehicles:
这个地方作者采用object-centric的思想,把坐标系转为vehicle的body坐标系,这样的话,就相当于小汽车没有动,只有相机在动了(水不转山转是吧)。


Representation of street scenes
Background Scenes:
说起来自动驾驶的场景往往都挺大的,怎么办呢?Mip-NeRF-360 scene parameterization 安排:

Moving Vehicles:
首先创个initial mesh:主要是follow Geo Sim这篇文章(这个应该是没开源)
GeoSim: Realistic Video Simulation via Geometry-Aware Composition for Self-Driving | Yun Chen
然后就是Follow Soft Rasterizer的思路求解图像中Moving Vehicles的深度:
Soft rasterizer: A differentiable renderer for image-based 3d reasoning
Depth Supervision
作者首先试图补全深度,随后利用重投影置信度以及几何置信度对深度进行评估
深度补全:
将点云累积以后,利用NLSPN对深度进行补全。
NLSPN:
Reprojection Confidence
将target image 重投影到source image上:
![]()
计算投影前后的误差:

Geometry Confidence
根据重投影计算Geometry Consistency:

根据重投影计算Flow Consistency:

作者定义了一组参数 , 这组参数是learnable 的,可以将模型自动聚焦到正确的confidence上。
Loss设计

比较难理解的是smooth loss的设计,这个作者是参考MINE这篇文章,这个我下篇文章再做笔记。
参考文献:
Xie, Ziyang, et al. "S-NeRF: Neural Radiance Fields for Street Views." arXiv preprint arXiv:2303.00749 (2023)
S-NeRF是一种新的方法,能同时重建大规模静态背景和动态前景,如自动驾驶场景中的移动车辆。作者通过优化相机位姿、使用基于重投影的深度方法去除异常值,以及对移动车辆采用对象中心坐标系来处理动态元素。此外,他们应用Mip-NeRF-360对大场景建模,SoftRasterizer计算车辆深度,并利用NLSPN进行深度补全。通过重投影和几何一致性计算,文章提出了一种深度监督策略,以及可学习的置信度参数。尽管涉及复杂的损失函数设计,S-NeRF在nuscenes和waymo数据集上展示了有效性能。
1238

被折叠的 条评论
为什么被折叠?



