作者 | AI 驾驶员 编辑 | 智驾实验室
点击下方卡片,关注“自动驾驶之心”公众号
戳我-> 领取自动驾驶近15个方向学习路线
本文只做学术分享,如有侵权,联系删文
生成模型显著提升了自动驾驶领域的相机图像或激光点云生成和预测质量。然而,现实中的自动驾驶系统通常使用多种输入模态,包括相机和激光雷达,这些传感器提供的信息互补,有助于生成更加准确的结果。
现有的生成方法忽略了这一关键特征,导致生成结果只能覆盖单独的2D或3D信息。为了填补2D-3D多模态联合生成的空白,本文提出了一种名为HoloDrive的框架,旨在联合生成相机图像和激光点云。
作者在这两个异构生成模型之间采用了BEV-to-Camera和Camera-to-BEV转换模块,并在2D生成模型中引入了一个深度预测分支,以消除从图像空间到BEV空间的未投影歧义,然后通过添加时间结构并精心设计逐步训练方法来预测未来。
此外,作者在单帧生成和世界模型基准测试中进行了实验,并展示了作者的方法在生成指标上显著优于当前最佳方法。
1. Introduction
生成模型因其能够理解数据分布并生成内容的能力而获得了广泛关注,在图像和视频生成[1]、三维物体生成[16, 48]以及编辑[13]等领域取得了显著进展。在仿真领域,生成模型展现了创建逼真场景的巨大潜力,这对于训练和评估类似于自动驾驶车辆的安全关键型实体智能体[11, 44]至关重要。这一能力减少了对昂贵的手动现实世界建模的需求,促进了广泛的闭环训练和场景测试。此外,世界模型正在逐步探索中以理解和预测现实世界的动态特性,这对于仿真场景和视频生成至关重要。
尽管在自主驾驶领域的条件图像和视频生成方面取得了进展,现有方法主要集中在单一模态上,要么利用2D数据([44, 53]),要么利用3D数据([48, 52])。然而,一个真正具备能力的自主驾驶系统通常会整合多种传感器,包括相机和激光雷达。相机提供了丰富的纹理和语义信息,而激光雷达则提供了精确的三维几何细节。
这两种模态的结合可以提高感知准确性,因为它们互为补充([20, 24])。目前,联合模态生成的研究还非常初步。BEVWorld([51])进行了一些探索,但其生成的质量和可控性仍然难以与单模态领域的最新方法(SOTA)相媲美。
作者提出了一种全面的2D-3D生成框架HoloDrive,用于自动驾驶,该框架将街道视角下的2D和3D生成统一在一个高效的整体框架中。HoloDrive能够联合生成多视图摄像头和LiDAR数据,如图1所示。作者的框架扩展了最先进的2D和3D生成模型,使基于文本和边界框/地图条件生成真实街道场景成为可能。
为了实现联合2D和3D生成,作者首先在2D生成模型中引入一个深度预测分支,并从3D LiDAR自然地获得监督信号。在此基础上,作者采用一种高效的BEV到Camera变换来对齐3D和2D空间,并引入一种Camera到BEV模块,该模块将丰富的2D语义先验信息引入到3D空间中。这些跨模态结构在生成过程中促进了两种模态之间的有效信息交换,并使整个模型能够端到端地训练。作者将联合pipeline应用于单帧生成和视频生成任务,并采用渐进式训练方法,结合视频域的额外多任务学习,以实现训练阶段的平滑过渡。
作者在NuScenes数据集[3]上进行了实验,该数据集提供了配对的多视图相机图像、LiDAR点云、文本描述以及地图布局等信息。作者的结果显示,通过整合联合2D-3D建模,HoloDrive在生成多视图相机图像和LiDAR点云的单帧及序列数据方面达到了业界最佳性能。
本文的主要贡献总结如下:
作者提出了一种新型框架HoloDrive,能够在给定文本和布局条件的情况下,联合生成在二维和三维空间中一致的多视图相机图像和LiDAR点云。作者 Proposal 在二维生成中增加额外的深度监督,并应用高效的Camera-to-BEV变换模型来对齐二维和三维空间,从而增强联合二维-三维生成建模能力,并进一步扩展到视频生成中。
作者的方法在生成质量上表现出色,能够忠实地遵循给定的条件以及实现二维-三维一致性,同时在单帧和视频生成方面都达到了最先进的性能。
2. Related Work
2.1. Image Generation
图像生成是生成建模中最基本的话题之一,已经探索了各种方法。其中,通过逆向迭代随机过程来建模图像生成的扩散模型因其在竞争性训练稳定性和生成质量方面的优势越来越受到关注。造成这种现象的原因在于扩散模型中的精心设计选择,包括通过自动编码器[34]或级联模型[35]降低预测分辨率、更好的噪声调度器、无分类引导以增强控制能力等。最近,一些研究工作成功地将Transformer[42]在NLP领域中展示出的缩放能力转移到扩散模型中。
与自然图像相比,自动驾驶(AD)领域的图像存在固有的差异,即整齐的场景结构和多样的物体。为了弥补这些差异,利用布局信息来引导生成。例如,BEVGen [38] 通过将所有布局投影到BEV空间来参考3D信息。相反,BEVControl [50] 则是从将3D坐标投影到图像视图开始,构建二维几何指导,而MagicDrive [6] 结合了这两种方法的优点。最近,Drive-WM [44] 将像素 Level 的布局信息转移到潜在空间,并依赖统一嵌入来关注它们。作者的方法在此基础上进一步改进,引入了点云协同作用。
2.2.LiDAR Generation
LiDAR 点云生成近年来得到了探索,这是一项属于三维点云生成的任务。早期的工作利用变分自编码器(VAE)[18] 或生成对抗网络(GAN)[7] 对点云进行无条件生成 [2, 36]。LiDARGen [54] 利用了得分匹配能量模型,并从纯噪声中生成点云,视角采用球面投影图。为了更好地保持 LiDAR 场景的结构和语义信息,UltraLiDAR [48] 首次提出使用离散表示来建模 LiDAR 的分布。他们训练一个 LiDAR VQ-VAE [41] 来学习离散表示,并利用双向 Transformer [4] 学习 LiDAR 场景离散 Token 的联合分布。
关于点云预测,一些方法利用过去 LiDAR 扫描来预测未来点云,在时间动态建模上基于 LSTM [45]、随机序列潜在模型 [46] 或三维空间时序卷积网络 [29]。4DOcc [16] 选择预测一个通用的未来三维占用量级数量,而不是直接预测未来点云。Copilot4D [52] 探索了未来 LiDAR 预测中的离散扩散模型,并结合了单一帧预测、未来预测和联合建模的训练目标。RangeLDM [12] 通过去噪 LiDAR 范围图的潜在特征来进行生成,并将这些图像通过霍夫投票投影到点云上以确保高质量的表示。然而,这些方法仅考虑了 LiDAR 点云的先验信息,缺乏语义和感知信息。在本工作中,作者提出的 HoloDrive 同时利用二维图像和三维点云的先验信息,促进了高质量点云的生成。
2.3. Joint Generation
BEVWorld [51] 首次尝试了相机和LiDAR联合生成,并提出了一种利用潜变量自动编码器内部射线投射模块的统一BEV潜在表示,然后通过降噪生成统一的BEV潜在表示。
然而,这种新设计的潜在空间并未用大规模数据进行训练,因此图像生成质量仍难以与基于大规模预训练模型微调的方法(如SD)相匹敌。作者提出的HoloDrive 在有效利用预训练图像生成模型的能力基础上,实现了2D-3D联合生成,并在生成质量上达到了最佳水平(SOTA)。
2.4.PredictiveWorldModel
预测世界模型,利用广义预测模型从序列数据中学习,为在视觉领域再现大语言模型(LLM)[39] 的巨大成功提供了潜在途径。在视觉领域,预测模型可以被视为视频生成的一种特殊形式,以往观察数据作为指导。进一步缩小至自动驾驶(AD)领域,DriveGAN [17] 和 GAIA-1 [11] 通过动作条件下的视频扩散模型学习了一种通用的驾驶视频预测器。
DriveDreamer [43] 引入了额外的三维条件和渐进式训练策略。GenAD [49] 通过构建更大的数据集来扩大模型规模。为了进一步提高预测能力,ADriver-I [14] 利用了大语言模型生成的抽象信号,例如动作和速度。
尽管上述方法主要从单目视频中学习,但最近,Drive-WM [44] 和 DriveDreamer-2 [53] 扩展了学习资源,涵盖了多视图视频。尽管这些方法取得了竞争性的结果,但仍不清楚这些模型是否 Aware 到三维世界。在此项工作中,作者开创了一条路径,旨在协同生成多视图视频和点云数据。
3. Method
图2展示了所提出Pipeline的整体框架,该Pipeline能够联合预测多视图视频和未来LiDAR点。除了基本的2D和3D生成模型外,还提出了两种新颖的跨模态结构:2D到3D结构和3D到2D结构,以实现两种模态之间的交互,并共同提升视频(或图像)和LiDAR生成的质量。对于多模态数据和模型, superscript 表示摄像头,superscript 表示LiDAR。
3.1. Multi-view Image Generation
作者方法中的基本图像生成Pipeline遵循SD 2.1 [34]。给定原始图像 ,其中为视图索引,和分别为图像的高度和宽度,作者得到图像潜在特征 ,其中 是VAE编码器。它从随机高斯噪声 开始,通过U-Net模型 迭代去除噪声 步,最终得到干净的图像潜在特征 。跨视图注意力。借鉴Drive-WM [44]的做法,在扩散U-Net中的每个空间注意力块之后插入跨视图注意力块以实现多视图一致性。跨视图注意力块接受U-Net空间块的输出,并在不同视图间应用自注意力机制,然后通过可学习的混合器将输出合并回其输入中。
作者使用训练目标来训练模型。
3.2.LiDAR Generation
作者的方法通过离散表示学习生成LIDAR点云[41]。作者根据UltraLiDAR[48]训练了一个类似VQ-VAE的分词器。给定一个LIDAR点云观测值,作者利用编码器-解码器模型对其进行量化和重构。编码器是一个PointNet[32],后跟多个Swin Transformer块[25],将点云转换为BEV潜在特征,编码器的输出经过量化层以获得离散的tokens。解码器包含多个Swin Transformer块以及附加的可微深度渲染分支[52],用于 Voxel 重建。在推理过程中,当离散token解码为点云时,使用空间 Shortcut [52]来加速采样。
作者随后训练一个生成模型,能够生成多样化的 LiDAR 点云。不同于 UltraLiDAR [48] 只有条件无地生成 LiDAR 点云,作者提出了一种基于多通道 BEV 特征 (e^{(l)}) 的生成模型。BEV 条件特征可以是从数据集标注直接投影的 3D 方框和高清地图条件,也可以是从二维生成网络特征图中转换来的跨模态条件。训练目标定义为通过交叉熵损失重建原始输入。
VAE的水平通常为8。该网络的输出为,其中表示深度区间数量。给定深度预测和投影点云作为Ground Truth,作者计算深度损失,它是一个简单的交叉熵损失。
。作者的3D到2D模块将3D特征投影到2D视图上。具体来说,作者首先为每个相机创建一个类似漏斗形的点云。每个点是从其图像空间齐次坐标乘以其深度区间的实际距离计算得出的。通过解方程
在其中, 是通过 Mask 的鸟瞰图 Tokens,而 表示 Transformer 的输出概率。Transformer 具有两个方向来建模 LiDAR Tokens 的分布,并且包含 Swin Transformer 块 [25]。作者采用了类似于 MaskGIT [4] 中采样过程的 LiDAR Tokens 采样算法,在该过程中,第 次迭代中的 Mask Tokens 数量 遵循一个 Mask 调度器 ,并且 是总的迭代次数。最终,生成的 Tokens 通过深度渲染的 tokenizer 解码器 被解码成 LiDAR 点云。
3.3. Joint Generation of Camera and LiDAR
如图2(c)和(d)所示,用于2D模型与3D模型之间交互的结构包括两个单向跨模态转换模块和一个深度监督模块。前者旨在提高生成元素的质量和跨模态一致性,而后者则有助于更好地进行3D感知。
深度监督。作者遵循BEVDepth [19]的方法,利用U-Net下采样块提取的图像特征来估计深度。所有下采样块的输出特征被调整到,然后进行拼接,其中表示缩放比例,在此尺度上,表示相机内参矩阵,表示从激光雷达空间到相机空间的旋转矩阵,表示从激光雷达空间到相机空间的平移向量,而则是在激光雷达空间中的椎体状点云。随后,作者使用抽样LiDAR生成模型的隐藏状态,并沿深度维度加权求和,最终得到。作者采用一个轻量级的 Adapter [30] 注入这些抽样特征。类似地,类似于从二维到三维的部分,作者将投影特征与二维条件特征拼接在一起,形成更新版本的统一二维条件特征,作为式1中的更新版本。
转 . 作者提出了一种新颖的 到 模块,该模块将来自 多视角生成模型的先验知识聚合到 空间中,从而提供周围环境的语义信息。作者使用点云池化操作(参照 BEVDepth [19]),将 模型中的多视图中间特征,即噪声潜特征,转换为 空间中的嵌入表示 。在训练过程中,依据公式 (1),作者从 U-Net 块中获取给定 条件下时间步长 的多视图中间特征 。利用权重 ,空间中的特征通过点云池化被转换为 BEV 空间的嵌入 。
联合训练与推理。作者基于所有训练目标之和进行联合训练阶段的优化,并通过平衡权重、和来进行优化。
4. Experiments
3.4. Temporal Modeling
时间生成架构。为了构建具有多模态视频生成的世界模型,作者通过在空间注意力层之后插入时间注意力层的方法来建模时间信息,参考了Drive-WM [44] 的做法。此外,作者也遵循Copilot4D [52] 的设计,在3D视频生成器中引入了一个因果 Mask 。
联合世界模型。给定过去的观测值 和 ,长度为 ,作者训练模型以预测未来 帧对应的观测值 和 。损失可以通过对所有 帧上的联合训练损失 进行平均来计算。作者扩展生成器的输入至真值和噪声图像潜在变量的拼接,即 ,其中 表示添加噪声的步骤, 是 2D U-net 的输入,而 是一个长度为 的二元 Mask ,用于在最后 帧中遮挡真值潜在变量。这里为了简化起见省略了时间索引。在三维方面,作者直接用真值替换 Mask Token 以使预测任务得以进行。
多任务训练策略。作者的训练方法类似于最近的生成模型[5],即作者首先在单一模态任务上预训练模型,然后再针对联合训练任务进行微调。在联合训练阶段,模型被强制利用布局条件(例如,3D Box 条件)和交互条件,而前者的预训练则完全在早期阶段完成。为了解决这一问题,作者在联合训练阶段提出了条件性舍弃策略。具体来说,在联合训练阶段,作者随机抑制单一模态中的布局条件。由于条件仅来自一个模态,因此模型自然被强制执行跨模态学习。另一个对作者渐进式训练产生重要影响的因素是单一模态训练与联合训练之间的差距。作者发现,在交互方面的简单舍弃策略足够有效,这意味着联合训练阶段可能以一定的速率回到单一模态训练阶段。结合上述两种策略,作者的联合训练阶段可以视为进行多任务学习,在实验部分,作者展示了这一点对视频生成联合训练的重要性。
4.1. Settings
数据集。作者的实验基于NuScenes [3] 数据集,因为该数据集包含了多视角图像、激光点云、场景描述文本、框标注以及地图信息。该数据集包含用于训练的700个视频和用于验证的150个视频,每个视频大约持续20秒,并包含约40帧关键帧。每帧关键帧包括由周围视图摄像头捕捉的6张图像和由激光雷达捕捉的点云。按照BEVFormer [22] 使用的规范,nuScenes中常见的10类三维物体用不同的颜色进行编码,并投影到图像空间。Baseline 方法。作者分别针对多视角图像生成和激光点云生成任务使用了 Baseline 方法。对于图像生成部分,作者将现有的一些多视角图像生成方法应用于自动驾驶场景以进行对比。对于激光点云部分,作者重现了UltraLiDAR [48] 并将其作为 Baseline 方法。
训练方案。作者设有三个训练阶段。第一阶段从SD 2.1开始,训练一个跨视图相机生成模型,并新增了关于跨视图、图像条件以及深度估计的模块。第二阶段从头开始训练LiDAR生成模型。第三阶段从前两个阶段继续训练联合生成模型。前两个阶段的实验在16块V100(32GB)GPU上进行,最后一个阶段则在8块A800(80GB)GPU上进行。图像被调整为的大小,尽量保持原图像的比例。LiDAR点被限制在范围内。对于预测模型,作者使用长度为8的片段,过去观察的数量为4。条件丢弃率和联合丢弃率均设定为30%。
评价指标。生成的图像和视频通过Frechet Inception Distance (FID) [9]和Frechet Video Distance (FVD) [40]进行评估。作者采用mAP(平均平均精度)来衡量生成的准确性,通过比较生成结果的GT位置和检测到的位置来进行测量,并根据 Baseline 方法的评估规则选择BEVFusion [26]或BEVFormer [22]作为检测模型。生成的LiDAR点则通过Chamfer距离、L1误差(L1均值/中位数)、相对L1误差(绝对相对均值/中位数)进行评估,遵循4D-Occ [16]的做法。
4.2. Main Results
图像生成中的深度估计。深度对于图像和点云之间的跨模态信息转换至关重要。图6展示了用作 Backbone 网络的扩散U-网络的深度估计能力。多视图图像生成。作者将作者的方法与其他多视图图像生成方法(包括目前最先进方法Drive-WM [44])进行了比较,发现作者的HoloDrive在所有 Baseline 方法中现实感最高,准确率仅次于Drive-WM。FID和mAPs的结果见表1。定性结果如图4所示。
单帧 LiDAR 生成。表3 显示了作者方法与最新的 LiDAR 生成方法 UltraLiDAR [48] 的量化比较结果。作者根据原论文的细节重新实现了无条件和有条件版本。作者报告了两种类型方法的结果: 和 (联合训练的 2D-3D)。3D 条件(3D 方框和高清地图)显著提高了 LiDAR 质量的各项评分。将 2D 模型中的 2D 特征整合到作者的 3D 模型中,明显提升了 C-D 度量、L1 均方误差和 AbsRel。最后,在 2D 和 3D 模型之间进行交互作用后,作者的方法展示了更好的 LiDAR 生成质量,如图5 所示例子中的点云细节中树木和建筑物的显示效果。
跨模态一致性。作者提出的一种联合2D-3D生成方法的一个明显优势在于跨模态的一致性。如图3所示,生成的2D多视图街道场景与3D激光雷达点云高度一致,这可能是由于训练和推理过程中两种模态之间频繁的交互所导致的。
LiDAR 预测。作者遵循 Copilot4D [52] 的实现细节来构建作者的三维世界模型。值得注意的是,在序列生成过程中,作者将ego车设为坐标原点,而非固定在一个参考系中。实验结果如表5所示,作者的重实现取得了与Copilot4D相类似的性能,并且优于先前的方法。
预测性世界模型。作者还与其他方法进行了比较。作者遵循了 Drive-WM [44] 的评估流程。特别地,对于 NuScenes 中的每个验证视频,作者以自回归的方式生成相应的 40 帧 [1],并选择其中 16 帧进行评估。结果如表2 所示。作者的方法在 DriveDreamer-2 [53] 上除了 FVD 之外优于其他方法,这在一定程度上归因于 SVD 的使用:[53] 中的消融研究显示,仅仅将 SD1.5 更改为 SVD 可以显著降低 FVD,从 340.8 降至 94.6。
① 2025中国国际新能源技术展会
自动驾驶之心联合主办中国国际新能源汽车技术、零部件及服务展会。展会将于2025年2月21日至24日在北京新国展二期举行,展览面积达到2万平方米,预计吸引来自世界各地的400多家参展商和2万名专业观众。作为新能源汽车领域的专业展,它将全面展示新能源汽车行业的最新成果和发展趋势,同期围绕个各关键板块举办论坛,欢迎报名参加。
② 国内首个自动驾驶学习社区
『自动驾驶之心知识星球』近4000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(端到端自动驾驶、世界模型、仿真闭环、2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎扫描加入

③全网独家视频课程
端到端自动驾驶、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习)
④【自动驾驶之心】全平台矩阵