自动驾驶论文速递 | 扩散模型、轨迹预测、TopoLiDM、VLA等~

最新推荐文章于 2025-08-05 16:20:04 发布

转载最新推荐文章于 2025-08-05 16:20:04 发布 · 18 阅读

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247674103&idx=1&sn=0dffcd2c5f288328e65ed6603265237a&chksm=cf99cf2d519db95cd2d6881321eed7ee2bb61f38826eec9cb2246c5515ebb2cafb8ebd84b377&scene=126&sessionid=0

文章标签：

#自动驾驶 #人工智能 #机器学习

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近30个方向学习路线

基于可控扩散模型的生成式主动学习：长尾轨迹预测新方法

韩国DGIST、美国高通研究院与韩国KAIST ICCV25中稿的工作，本文提出生成式主动学习框架GALTraj，首次将可控扩散模型应用于轨迹预测的长尾问题，通过尾样本感知生成技术动态增强稀有场景数据，在WOMD和Argoverse2数据集上使长尾指标FPR₅相对降低47.6%（从0.42→0.22），整体预测误差minFDE₆降低14.7%（从0.654→0.558）。

论文标题：Generative Active Learning for Long-tail Trajectory Prediction via Controllable Diffusion Model
论文链接：https://arxiv.org/abs/2507.22615

主要贡献：

首次将生成式主动学习应用于轨迹预测任务，提出 GALTraj 框架，通过可控扩散模型驱动的交通模拟增强长尾学习效果，无需修改模型结构。
设计尾部感知生成方法，对交通场景中的尾部代理、头部代理和相关代理分配差异化扩散引导，生成兼具真实性、多样性且保留尾部特征的场景。
在多个数据集（WOMD、Argoverse2）和骨干模型（QCNet、MTR）上验证，显著提升尾部样本预测性能，同时改善整体预测精度。

算法框架：

实验结果：

可视化：

本文均出自自动驾驶之心知识星球，欢迎加入我们！

上海交大提出TopoLiDM：基于拓扑感知扩散模型实现可解释、高保真激光雷达点云生成

上交大与特文特大学联合提出 TopoLiDM 框架，通过拓扑正则化的图扩散模型实现高保真激光雷达生成，在 KITTI-360 数据集上以 22.6% 的 FRID 下降率和 9.2% 的 MMD 下降率超越现有最优方法，同时保持 1.68 样本/秒的实时生成速度。

论文标题：TopoLiDM: Topology-Aware LiDAR Diffusion Models for Interpretable and Realistic LiDAR Point Cloud Generation
论文链接：https://arxiv.org/abs/2507.22454
代码：https://github.com/IRMVLab/TopoLiDM 自驾，IROS 2025

主要贡献：

拓扑感知的LiDAR扩散模型框架：提出了TopoLiDM，一种创新性框架，将图神经网络(GNNs)与扩散模型在拓扑正则化下集成。该方法采用紧凑的拓扑图作为潜在表示，实现了快速、可解释且高保真的LiDAR点云生成。
拓扑感知VAE模块设计：设计了拓扑感知的变分自编码器(Topology-aware VAE)，通过图构建和多层图卷积提取潜在图表示，并引入0维持久同调(Persistent Homology, PH)约束。该模块能够捕获长距离依赖关系，确保生成的LiDAR场景符合真实世界环境的全局拓扑规则。
卓越的性能表现：在KITTI-360数据集上的广泛实验表明，TopoLiDM在关键指标上显著超越现有最先进方法。具体而言，在Fréchet Range Image Distance (FRID)指标上降低了22.6%，在Minimum Matching Distance (MMD)指标上降低了9.2%。同时保持快速推理速度(平均1.68样本/秒)，展示了实际应用潜力。

算法框架：

实验结果：

可视化：

FastDriveVLA：基于重建式令牌剪枝的高效端到端自动驾驶

北大 & 小鹏提出基于重建的视觉Token剪枝框架FastDriveVLA，通过对抗性前景-背景重建策略，在50%剪枝率下保持99.1%轨迹精度并降低碰撞率2.7%。

论文标题：FastDriveVLA: Efficient End-to-End Driving via Plug-and-Play Reconstruction-based Token Pruning
论文链接：https://arxiv.org/abs/2507.23318

主要贡献：

提出了 FastDriveVLA，一种基于重建的新型视觉令牌修剪框架，区别于现有的基于注意力和基于相似度的修剪方法。
设计了 ReconPruner，一种通过 MAE 风格像素重建训练的即插即用修剪器，并引入新型对抗性前景 - 背景重建策略以增强其识别有价值令牌的能力。
构建了 nuScenes-FG 数据集，该数据集包含针对自动驾驶场景的前景分割标注，共 241k 图像 - 掩码对。
所提方法专为端到端自动驾驶 VLA 模型设计，在 nuScenes 开环规划基准上实现了 SOTA 性能。

算法框架：

实验结果：

可视化：

TUM首创语言大模型驱动自动驾驶，复杂路况像人类一样决策

TUM提出了一种统一的感知-语言-动作（PLA）框架，通过整合多传感器融合和GPT-4.1增强的视觉-语言-动作推理核心，实现了自适应自动驾驶的上下文感知决策，在nuScenes数据集的城市交叉路口场景中，速度预测的平均绝对误差（MAE）降至0.39 m/s、R²分数达0.923，轨迹跟踪的平均位移误差（ADE）为1.013米。