文章主要内容总结
本文提出了一种基于大语言模型(LLMs)的框架,用于生成逼真的安全关键驾驶场景视频,以支持自动驾驶系统的测试与评估。主要内容包括:
-
研究背景:安全关键驾驶场景(如突发行人横穿、车辆突然切入等)对自动驾驶系统的可靠性至关重要,但这类场景在现实中罕见,难以通过传统路测充分验证。LLMs在代码生成和视频合成领域的进展为解决这一问题提供了可能。
-
核心方法:
- 场景生成:利用LLMs的少样本代码生成能力,在CARLA模拟器中自动生成安全关键场景脚本(特别是碰撞场景),通过Scenic语言精确控制交通参与者的位置、行为和事件触发时机。
- 视频合成:结合Cosmos-Transfer1(一种基于扩散模型的条件生成模型),将CARLA的模拟结果转化为逼真视频,通过ControlNet技术保持场景语义一致性的同时提升视觉保真度。
- 端到端 pipeline:构建从场景生成到视频合成的端到端流程,实现对边缘场景的可控生成与分析,助力自动驾驶系统的全面测试。
-
实验验证:在CARLA中生成了多种安全关键场景(如遮挡下的行人横穿、恶劣天气下的车道变换等),并通过Cosmos-Transfer1生成了不同环境(晴天、雨天、雪天等)下的逼真视频,验证了方法在场景多样性和视觉真实性上的有效性。

订阅专栏 解锁全文
785

被折叠的 条评论
为什么被折叠?



