理想一篇中稿AAAI‘26的LiDAR生成工作 - DriveLiDAR4D

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近30个方向学习路线

>>自动驾驶前沿信息获取自动驾驶之心知识星球

论文作者 |  Kaiwen Cai等

编辑 | 自动驾驶之心

激光雷达(LiDAR)点云的真实生成在自动驾驶系统的开发与评估中起着关键作用。尽管近年来3D激光雷达点云生成方法已取得显著进步,但仍存在明显局限性,包括缺乏时序生成能力、无法生成定位精准的前景物体及逼真背景。这些缺陷阻碍了它们的实际应用。

理想汽车提出了DriveLiDAR4D,一种全新的激光雷达生成流水线,整合了多模态条件与创新的时序噪声预测模型LiDAR4DNet,能够生成时序一致的激光雷达场景,且具备高度可控的前景物体与逼真背景。理想汽车提出了DriveLiDAR4D已中稿AAAI 2026!

据我们所知,这是首个以端到端方式实现激光雷达场景时序生成并具备全场景操控能力的研究。我们在nuScenes和KITTI数据集上对DriveLiDAR4D进行了评估,在nuScenes数据集上实现了743.13的FRD分数和16.96的FVD分数,超越了当前最先进方法UniScene,FRD性能提升37.2%,FVD性能提升24.1%。

  • 论文标题:DriveLiDAR4D: Sequential and Controllable LiDAR Scene Generation for Autonomous Driving

  • 论文链接:https://arxiv.org/abs/2511.13309

背景回顾

数据是推动人工智能发展的基础要素。在自动驾驶研究领域,高质量数据尤为关键,原因如下:i)深度学习模型固有的数据密集型需求;ii)必须捕捉边缘场景——罕见的驾驶行为和特殊的道路环境,这些对于开发安全关键型系统至关重要。然而,收集和标注多样化的多模态数据集(如相机和激光雷达数据)仍然耗时且资源密集。尽管近年来生成模型在视觉数据合成方面展现出良好潜力,但激光雷达场景生成——尽管其在提供几何感知方面不可或缺——仍相对滞后。本研究旨在改进现有的激光雷达场景生成技术,以更好地满足实际自动驾驶需求。

为合成能够准确捕捉真实世界多样交通场景的逼真激光雷达数据,激光雷达场景生成方法应支持道路布局和动态物体放置的灵活定制。近期研究(如LiDARGen、UltraLiDAR、R2DM以及RangeLDM)在生成逼真激光雷达数据方面取得了显著进展。然而,这些技术主要以无条件生成方式为主,缺乏操控特定场景元素的能力。

激光雷达点云背景的质量与前景物体的质量同等重要,均需保证逼真度。为此,Text2LiDAR采用文本描述作为条件输入。尽管如此,该方法仅限于包含天气状况、时段和物体名称的粗略描述。由于缺少树木或建筑物等具体背景信息的描述,生成的激光雷达数据逼真度受到影响。

此外,当前3D激光雷达场景生成方法在捕捉物体动态行为方面存在不足。为缓解这一问题,LidarDM提出通过分别建模静态场景和动态物体来生成激光雷达序列。但该方法缺乏背景操控能力,其两阶段合成策略可能会影响点云分布的逼真度和连贯性。

综上所述,当前激光雷达场景生成方法在整合所有关键能力方面存在明显不足:时序场景生成,同时具备对前景和背景组件的精细化操控能力。为填补这一空白,我们提出DriveLiDAR4D,一种端到端的4D激光雷达场景生成流水线,能够生成具备全面场景操控能力的时序激光雷达场景。DriveLiDAR4D具有两大核心特征:i)融合多模态条件,包括场景描述、道路草图和物体先验;ii)精心设计的等矩形时空噪声预测模型LiDAR4DNet,确保去噪过程中的空间和时序一致性。

图1展示了不同方法在nuScenes验证集上生成的激光雷达场景。可见,RangeLDM和Text2LiDAR无法准确生成车辆,且背景与真实场景(GT)不一致。相比之下,DriveLiDAR4D生成的车辆位置、结构以及背景均与真实场景高度吻合。此外,值得注意的是,DriveLiDAR4D能够生成保持时序一致性的激光雷达场景序列,而RangeLDM和Text2LiDAR仅能生成孤立的单个激光雷达场景。

综上,本文的具体贡献如下:

  • 首次实现激光雷达场景生成中对前景物体的精准操控(包括位置和尺寸调整)以及对背景元素的精细化操控。

  • 提出新颖的等矩形时空扩散模型LiDAR4DNet,以端到端方式实现时序激光雷达场景生成,同时保证前景和背景元素的一致性。

  • 在KITTI和nuScenes数据集上验证了所提DriveLiDAR4D的有效性,其性能超越了当前最先进方法。

DriveLiDAR4D算法详解

图3展示了DriveLiDAR4D的流水线:训练阶段,我们首先提取三种多模态条件(道路草图、场景描述和物体先验);随后,LiDAR4DNet以带噪声的等矩形图像序列作为输入,并以这三种多模态条件为约束,预测添加的噪声。推理阶段,LiDAR4DNet同样利用这三种多模态条件,重建等矩形图像序列。

预备知识

本文方法基于扩散模型,本节将简要介绍其基本原理。我们采用去噪扩散概率模型(Denoising Diffusion Probabilistic Model, DDPM)。在DDPM中,前向扩散过程会通过在每个时间步 添加高斯噪声,逐步破坏样本 ,公式表示为: 。最终,变量 将服从高斯分布,其概率密度函数可写为:

其中 是决定噪声调度的超参数。我们采用 -余弦调度,即 。由此,变量从时间步 ($0
其中

反向扩散过程用于在 latent 空间中对样本进行去噪,其概率密度函数可表示为:

其中

训练阶段,给定带噪声样本 ,模型通过估计公式(3)中的 来学习预测未知的 。实际操作中,我们采用 -预测,将 重新参数化为 的函数。损失函数定义为:

其中 代表条件。

模型训练完成后,我们按 的顺序迭代计算公式(3),最终得到的样本需逼近数据分布。本研究中,去噪过程的迭代次数设为256。

多模态条件

道路草图:道路草图包含道路布局和物体专属信息。首先,通过路缘和车道线勾勒道路布局,这种表示方式可实现道路空间结构的像素级精准控制;其次,物体专属信息以3D边界框形式呈现,该边界框包含每个物体的尺寸、位置和朝向信息。

为将这两部分整合为统一表示,我们将道路布局和3D边界框均投影到激光雷达传感器的等矩形图像平面(下文将详细介绍)上,得到与输入等矩形图像尺寸一致的道路草图。图2展示了nuScenes数据集中路途草图条件的示例。

场景描述:除通过道路草图实现前景控制外,我们还提出使用场景描述对背景进行全面描述。然而,现有激光雷达数据集缺乏高质量场景描述:KITTI-360数据集未包含任何场景描述,nuScenes数据集仅提供关于天气或时段的单句简短描述。因此,我们利用强大的视觉-语言模型GPT-4V生成详细场景描述——具体而言,将周围图像输入GPT-4V,并要求其生成所描绘场景的描述文本。图2展示了nuScenes数据集中场景描述条件的示例,该示例中的场景描述不仅包含前景物体“出租车”,还涵盖“树木”“草地”等背景元素。

物体先验:在自动驾驶场景中,激光雷达对不同元素的测量往往存在不平衡性——例如,一辆车可能由数百个点表示,而地面却可能包含数千个点。扩散模型通常会尝试对整个场景进行逼近,却未解决这种不平衡问题,导致物体生成质量欠佳。为缓解这一问题,我们提出先合成物体的点云,再将其作为条件引导模型生成完整场景。背后的核心思路是:尽管道路草图可指示物体位置,但无法充分引导物体的点分布;而将合成物体点云作为先验,能在去噪过程中提供更强的引导作用。

我们训练了一个物体生成模型DiT-3D,该模型以物体类别、尺寸、相对于激光雷达传感器的极坐标及朝向为条件,这些条件可表示为[类别, 长, 宽, 高, 极坐标, 朝向]。物体先验通过预训练的物体生成模型生成物体点云获得,随后将这些物体点投影到激光雷达传感器的等矩形图像平面上。

LiDAR4DNet模型

LiDAR4DNet采用等矩形表示方式,因其在描述大场景时具有高效性。空间分辨率为 的激光雷达传感器会在 个方位角和 个仰角下采集距离和反射率数据,最终得到等矩形图像 。我们通过 对距离变量进行缩放,随后将其归一化到 区间。

如图3所示,本文提出的LiDAR4DNet是一种类UNet的编解码器模型,其在四个尺度上集成了堆叠的等矩形时空卷积(Equirectangular Spatial-Temporal Convolution, EST-Conv)模块,并在瓶颈层设置了等矩形时空Transformer(Equirectangular Spatial-Temporal Transformer, EST-Trans)模块。

等矩形时空卷积(EST-Conv):RGB图像生成领域的研究已探索使用3D卷积学习时序特征,但等矩形图像与标准RGB图像存在显著差异:1)像素坐标 与激光雷达数据模式具有强相关性(例如,距离近且位置低的区域通常代表地面);2)等矩形图像的左右边界对应激光雷达测量空间中的连续区域(尤其对于水平视场角为360度的激光雷达传感器);3)像素值分布与RGB图像差异显著。这些独特属性使得处理时序等矩形图像的最优方案尚未明确。

为此,我们提出EST-Conv——一种专为从等矩形图像中学习空间和时序特征设计的方法。在EST-Conv中,为提升空间一致性,我们利用像素坐标与激光雷达测量值的相关性:对每个像素坐标 提取傅里叶特征,并将这些特征与输入等矩形图像拼接。傅里叶特征的融入有助于模型更好地捕捉激光雷达数据中的潜在几何模式。

此外,等矩形图像的水平视场角为360度,意味着其左右边界对应连续的3D空间。为更好地建模这种空间连续性,我们将2D卷积中的标准零填充替换为循环填充,以增强水平图像边界间的特征学习;在通过2D卷积操作处理前,先将时序等矩形特征沿批次维度展开。

为保证时序一致性,我们采用3D卷积直接处理时序等矩形特征。由于等矩形投影的独特几何特性,相邻像素可能对应3D空间中的远距离物体,因此我们采用小尺寸卷积核( )构建3D卷积。最后,使用Alpha融合器(Blattmann等人,2023)融合空间和时序等矩形特征,其公式表示为: ,其中 为可学习参数, 分别代表空间特征和时序特征。

等矩形时空Transformer:卷积能高效处理感受野逐步扩大的特征,但在捕捉长程相关性方面存在局限;而注意力机制虽能有效建模长程依赖,却会带来巨大的计算开销。为高效建模长程依赖,我们引入EST-Trans,并如图3所示将其仅应用于瓶颈层。实验表明,该设计能在性能与效率间取得良好平衡。

在EST-Trans中,输入序列先沿批次维度堆叠后再进行空间注意力计算,展开后再进行时序注意力计算:空间注意力捕捉单个等矩形图像内的特征关联,时序注意力则促进时序等矩形图像间的特征交互。这种架构在降低计算成本的同时,提升了空间和时序一致性。

多模态条件注入:由于三种条件类型的特性不同,我们为每种条件设计了定制化注入策略:对于道路草图,因其与等矩形图像存在精准的像素级对应关系,采用通道拼接方式;对于可能涉及形状变换的物体先验,利用ControlNet条件策略以增强学习能力;对于场景描述,除采用交叉注意力外,还将时间步变量与描述文本融合,避免描述文本的影响被其他两种条件掩盖。

实验结果

自动驾驶之心

论文辅导来啦

自驾交流群来啦!

自动驾驶之心创建了近百个技术交流群,涉及大模型、VLA、端到端、数据闭环、自动标注、BEV、Occupancy、多模态融合感知、传感器标定、3DGS、世界模型、在线地图、轨迹预测、规划控制等方向!欢迎添加小助理微信邀请进群。

知识星球交流社区

近4000人的交流社区,近300+自动驾驶公司与科研结构加入!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎加入。

独家专业课程


端到端自动驾驶大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频

学习官网:www.zdjszx.com

【四轴飞行器】非线性三自由度四轴飞行器模拟器研究(Matlab代码实现)内容概要:本文围绕非线性三自由度四轴飞行器模拟器的研究展开,重点介绍了基于Matlab的建模与仿真方法。通过对四轴飞行器的动力学特性进行分析,构建了非线性状态空间模型,并实现了姿态与位置的动态模拟。研究涵盖了飞行器运动方程的建立、控制系统设计及数值仿真验证等环节,突出非线性系统的精确建模与仿真优势,有助于深入理解飞行器在复杂工况下的行为特征。此外,文中还提到了多种配套技术如PID控制、状态估计与路径规划等,展示了Matlab在航空航天仿真中的综合应用能力。; 适合人群:具备一定自动控制理论基础和Matlab编程能力的高校学生、科研人员及从事无人机系统开发的工程技术人员,尤其适合研究生及以上层次的研究者。; 使用场景及目标:①用于四轴飞行器控制系统的设计与验证,支持算法快速原型开发;②作为教学工具帮助理解非线性动力学系统建模与仿真过程;③支撑科研项目中对飞行器姿态控制、轨迹跟踪等问题的深入研究; 阅读建议:建议读者结合文中提供的Matlab代码进行实践操作,重点关注动力学建模与控制模块的实现细节,同时可延伸学习文档中提及的PID控制、状态估计等相关技术内容,以全面提升系统仿真与分析能力。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值