为自动驾驶而生｜Lightning NeRF：速度提升10倍（ICRA'24）

最新推荐文章于 2025-12-02 15:02:30 发布

转载最新推荐文章于 2025-12-02 15:02:30 发布 · 169 阅读

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247593968&idx=2&sn=d69296e45ae037e2b4e64e7207424bf1&chksm=cf638518b3abdc5666e4d5cc4bcceeaa551d6f7f47e60fa71e0fb391d2296c8646b9f3fed5cf&scene=126&sessionid=0

文章标签：

#自动驾驶 #人工智能 #机器学习

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>点击进入→自动驾驶之心『NeRF』技术交流群

写在前面&笔者的个人理解

最近的研究强调了NeRF在自动驾驶环境中的应用前景。然而室外环境的复杂性，加上驾驶场景中的视点受限，使精确重建场景几何体的任务变得复杂。这些挑战往往会导致重建质量下降，训练和渲染的持续时间延长。为了应对这些挑战，我们推出了Lightning NeRF。它使用了一种高效的混合场景表示，在自动驾驶场景中有效地利用了激光雷达的几何先验。Lightning NeRF显著提高了NeRF的新颖视图合成性能，并减少了计算开销。通过对真实世界数据集（如KITTI-360、Argoverse2和我们的私人数据集）的评估，我们证明了我们的方法不仅在新视图合成质量方面超过了当前最先进的技术，而且在训练速度上提高了五倍，在渲染速度上也提高了十倍。

代码链接：https://github.com/VISION-SJTU/Lightning-NeRF

详解Lightning NeRF

Preliminaries

NeRF表示具有隐式函数的场景，该隐式函数通常由MLP参数化，其返回从观看方向d观察到的场景中的随机3D点x的颜色值c和体积密度预测σ：

具体地说，为了渲染像素，NeRF利用分层体积采样沿射线r生成N个点。这些位置的预测密度和颜色特征通过累积进行组合：

虽然NeRF在新的视图合成中表现出优异的性能，但它的训练时间长，渲染速度慢，部分原因是其采样策略效率低。为此在训练期间保持粗略的占用网格，并且仅对占用体积内的位置进行采样。我们使用与这些工作类似的采样策略来提高模型的效率。

Hybrid Scene Representation

混合体积表示已经使用紧凑的模型实现了快速优化和渲染。鉴于此，我们采用混合体素网格表示来对辐射场进行建模以提高效率。简言之，我们通过在网格顶点存储σ来显式地对体积密度进行建模，同时使用浅MLP以隐式方式将颜色嵌入f解码为最终颜色c。为了处理户外环境的无边界性质，我们将场景表示分为前景和背景两部分，如图2所示。具体来说，我们从轨迹序列中检查每一帧中的相机截头体，并定义前景边界框，使其紧密包裹对齐坐标系中的所有截头体。背景框是通过沿每个维度按比例放大前景框而获得的。

体素网格表示。体素网格表示在其网格顶点中显式存储场景属性（例如，密度、RGB颜色或特征），以支持高效的特征查询。这样，对于给定的3D位置，我们可以通过三线性插值来解码相应的属性：

前景。我们建立了两个独立的特征网格，用于对前景区域的密度和颜色嵌入进行建模。具体来说，密度网格映射将位置映射到密度标量σ中，用于体积渲染。对于颜色嵌入网格映射，我们通过哈希表以不同分辨率备份实例化多个体素网格，以获得更精细的细节，并具有可承受的内存开销。最终的颜色嵌入f是通过在L个分辨率级别上串联输出而获得的。

背景尽管前面提到的前景建模适用于对象级别的辐射场，但将其扩展到无界的室外场景并非易事。一些相关技术，如NGP，直接扩展其场景边界框，以便可以包括背景区域，而GANcraft和URF引入了球形背景辐射来处理这个问题。然而，前一种尝试导致其功能的浪费，因为其场景框内的大多数区域都用于背景场景。对于后一种方案，它可能无法处理城市场景中复杂的全景（例如，起伏的建筑或复杂的景观），因为它只是假设背景辐射仅取决于视线方向。

为此，我们设置了一个额外的背景网格模型，以保持前景部分的分辨率不变。我们采用[9]中的场景参数化作为背景，经过精心设计。首先与反球面建模不同，我们使用反三次建模，用ℓ∞ 范数，因为我们使用体素网格表示。其次我们不实例化额外的MLP来查询背景颜色以节省内存。具体来说，我们通过以下方式将3D背景点扭曲为4D:

LiDAR Initialization

使用我们的混合场景表示，当我们直接从有效的体素网格表示而不是计算密集型MLP查询密度值时，该模型可以节省计算和内存。然而，考虑到城市场景的大规模性质和复杂性，由于密度网格的分辨率有限，这种轻量级表示很容易在优化中陷入局部极小值。幸运的是，在自动驾驶中，大多数自动驾驶汽车（SDV）都配备了LiDAR传感器，为场景重建提供了粗略的几何先验。为此，我们建议使用激光雷达点云来初始化我们的密度网格，以减轻场景几何和辐射联合优化的障碍。

Color Decomposition

最初的NeRF使用与视图相关的MLP来对辐射场中的颜色进行建模，这是对物理世界的简化，其中辐射由漫射（与视图无关）颜色和镜面（与视图相关）颜色组成。此外，由于最终输出颜色c与观看方向d完全纠缠，因此难以在看不见的视图中渲染高保真图像。如图3所示，我们在没有颜色分解（CD）的情况下训练的方法在外推设置中的新视图合成中失败（即，基于训练视图将观看方向向左移动2米），而我们在颜色分解的情况下给出了合理的渲染结果。

采样位置的最终颜色是这两个因素的总和：

训练损失

我们使用重新缩放的权重wi来修改光度损失，以优化我们的模型，使其专注于硬样本以实现快速收敛。权重系数定义为：

实验

结论

本文介绍了Lightning NeRF，这是一种高效的户外场景视图合成框架，它集成了点云和图像。所提出的方法利用点云快速初始化场景的稀疏表示，实现了显著的性能和速度增强。通过更有效地对背景进行建模，我们减少了前景上的代表性应变。最后，通过颜色分解，分别对视图相关和视图无关的颜色进行建模，增强了模型的外推能力。在各种自动驾驶数据集上进行的大量实验表明，我们的方法在性能和效率方面都优于以前的先进技术。

参考

[1] Lightning NeRF: Efficient Hybrid Scene Representation for Autonomous Driving

投稿作者为『自动驾驶之心知识星球』特邀嘉宾，欢迎加入交流！

① 全网独家视频课程

BEV感知、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、大模型与自动驾驶、Nerf、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）

网页端官网：www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业，近2700人的交流社区，已得到大多数自动驾驶公司的认可！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型、端到端等，更有行业动态和岗位发布！欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区，聚焦2D/3D目标检测、语义分割、车道线检测、目标跟踪、BEV感知、多模态感知、Occupancy、多传感器融合、transformer、大模型、在线地图、点云处理、端到端自动驾驶、SLAM与高精地图、深度估计、轨迹预测、NeRF、Gaussian Splatting、规划控制、模型部署落地、cuda加速、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流等方向。扫码添加汽车人助理微信邀请入群，备注：学校/公司+方向+昵称（快速入群方式）