点击下方卡片,关注“自动驾驶之心”公众号
摘要
对于自动驾驶车辆而言,在复杂环境中安全导航依赖于应对广泛且多样化的罕见驾驶场景的能力。基于仿真和场景的测试已成为自动驾驶系统开发与验证的关键方法。传统场景生成依赖基于规则的系统、知识驱动模型和数据驱动的合成方法,但这些方法往往生成的场景多样性有限,且难以生成真实的高风险安全关键场景。随着基础模型(Foundation Models)的出现——一种预训练的通用人工智能模型——开发者能够处理异构输入(例如自然语言、传感器数据、高清地图和控制指令),从而实现对复杂驾驶场景的合成与解析。本文围绕基础模型在自动驾驶场景生成与分析中的应用(截至2025年5月)开展综述研究。本综述提出了一个统一分类体系,涵盖大语言模型(LLMs)、视觉-语言模型(VLMs)、多模态大型语言模型(MLLMs)、扩散模型(DMs)和世界模型(WMs)在自动驾驶场景生成与分析中的应用。此外,我们回顾了相关方法论、开源数据集、仿真平台和基准测试挑战,并探讨了针对场景生成与分析的专用评估指标。最后,本文总结了当前面临的开放性挑战与研究问题,并展望了未来的研究方向。
论文链接:https://arxiv.org/abs/2506.11526
汇总链接:https://github.com/TUM-AVS/FM-AD-Survey




本文首发于自动驾驶之心知识星球,硬核资料在星球置顶:加入后可以获取自动驾驶视频课程、硬件及代码学习资料。业内最全的全栈学习路线图,独家业内招聘信息分享~
加入后如果不满意,三天内(72h)可全额退款!
大语言模型


视觉-语言模型



多模态大模型



扩散模型


世界模型



数据集、仿真和Bench汇总



本文首发于自动驾驶之心知识星球,硬核资料在星球置顶:加入后可以获取自动驾驶视频课程、硬件及代码学习资料。业内最全的全栈学习路线图,独家业内招聘信息分享~
我们目标是未来3年内打造一个万人聚集的智能驾驶&具身智能社区,这里也非常欢迎优秀的同学加入我们(目前已经有华为天才少年、自驾领域研究前沿的多为大佬加入)。我们和多家业内公司搭建了学术 + 产品+ 招聘完整的桥梁和链路,同时内部在教研板块也基本形成了闭环(课程 + 硬件+问答)。社区里面既能看到最新的行业技术动态、技术分享,也有非常多的技术讨论、入门问答,以及必不可少的行业动态及求职分享。具身智能这么火,要不要考虑转行?自动驾驶技术的未来发展趋势如何?大模型如何预自动驾驶&具身智能结合?这些都是我们持续关注的
加入后如果不满意,三天内(72h)可全额退款!