DriveBench:VLM在自动驾驶中真的可靠吗?(ICCV‘25)

部署运行你感兴趣的模型镜像

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近30个方向学习路线

>>直播和内容获取转到 → 自动驾驶之心知识星球

点击按钮预约直播

视觉语言模型(VLM)的最新进展激发了人们将其应用于自动驾驶的兴趣,尤其是通过自然语言生成可解释的驾驶决策。然而关于VLM是否能为驾驶提供基于视觉的、可靠的且可解释的解释,这一假设在很大程度上尚未得到验证。为填补这一空白,我们推出了DriveBench,这是一个基准数据集,旨在评估VLM在17种设置下的可靠性,包含19,200帧、20,498个问答对、三种问题类型、四种主流驾驶任务以及总共12个流行的VLM。

自动驾驶之心很荣幸邀请到加州大学尔湾分校在读博士生 - 谢少远,为大家分享介绍这篇ICCV 2025中稿的DriveBench。一个专为自动驾驶设计的视觉语言模型(VLMS)基准测试框架,旨在评估VLMs在不同环境和任务下的可靠性。DriveBench涵盖感知、预测、规划和行为四大核心任务,并引入 15种OoD类型,以系统性测试VLMs 在复杂驾驶场景中的可靠性。今天上午十一点,锁定自动驾驶之心直播间,我们不见不散~

论文标题:Are VLMs Ready for Autonomous Driving? An Empirical Study from the Reliability, Data, and Metric Perspectives

论文链接:https://arxiv.org/abs/2501.04003

项目链接:https://drive-bench.github.io/

更多精彩回顾

插入视频号视频

🚀 直播精华看不够?完整版深度内容已独家上线知识星球「自动驾驶之心」!涵盖所有技术细节、QA及未公开彩蛋。深度解析!

复旦BezierGS:利用贝塞尔曲线实现驾驶场景SOTA重建~

清华&博世开源SOTA性能纯血VLA:Impromptu-VLA告别双系统~

清华&吉利Challenger框架:自动驾驶对抗场景高效生成~

干货满满,快来加入

END

您可能感兴趣的与本文相关的镜像

Qwen3-VL-8B

Qwen3-VL-8B

图文对话
Qwen3-VL

Qwen3-VL是迄今为止 Qwen 系列中最强大的视觉-语言模型,这一代在各个方面都进行了全面升级:更优秀的文本理解和生成、更深入的视觉感知和推理、扩展的上下文长度、增强的空间和视频动态理解能力,以及更强的代理交互能力

### VLA与VLM的核心区别 在自动驾驶领域,VLM(视觉-语言模型)和VLA(视觉-语言-动作模型)代表了两种不同层次的技术架构。VLM主要关注于环境建模,即通过视觉和语言信息对周围环境进行理解和描述。它能够识别道路、障碍物、交通标志等关键元素,并结合自然语言处理能力对场景进行语义层面的解析。例如,VLM可以理解“前方有行人过马路”这样的描述,并将其转化为对环境的认知[^1]。 相比之下,VLA则是在VLM的基础上进一步扩展,不仅关注环境建模,还涵盖了路径规划和控制策略的生成。VLA模型能够直接从视觉输入和语言指令中提取特征,并生成具体的车辆控制指令,如转向、加速或减速。这意味着VLA不仅仅是在“看懂”环境,更是在“行动”,即根据对环境的理解做出实时的决策和控制[^2]。 ### 技术应用与落地情况 在实际应用中,VLM已经被广泛用于自动驾驶系统的感知模块,帮助车辆更好地理解复杂的交通环境。例如,通过结合多模态大语言模型(MLLMs),VLA能够利用模型的世界知识分析驾驶环境,在复杂场景中进行安全决策的推理。这种方式不仅简化了系统架构,还减少了信息传递过程中的损失,提高了整体系统的效率和可靠性[^2]。 而VLA作为VLM的升级版本,正在成为自动驾驶领域的研究热点。相比于传统的端到端方案,VLA方案拥有更高的场景推理能力与泛化能力。许多智驾行业的领导者都将VLA视为当前“端到端”方案的2.0版本,并将其看作是端到端+VLM的合体。VLA的优势在于其能够通过强化学习形成“思维能力”,自主处理新场景(如未知路况),从而实现更高效的城区自动驾驶支持[^3]。 ### 技术发展趋势 随着自动驾驶技术的不断进步,VLA和VLM的应用也在不断发展。VLM在环境建模方面的表现已经非常出色,但其主要局限在于无法直接生成控制指令,需要与其他模块配合使用。而VLA则通过引入语言模态,实现了从感知到决策再到控制的全流程自动化,极大地提升了系统的智能化水平。 未来,随着深度学习和强化学习技术的进一步成熟,VLA有望在更多复杂场景中发挥作用,尤其是在城区自动驾驶领域。通过不断优化模型结构和训练方法,VLA将能够更好地应对各种突发情况,提高自动驾驶的安全性和可靠性。 ### 示例代码:VLA的基本工作流程 以下是一个简化的VLA工作流程示例,展示了如何从视觉输入和语言指令中生成控制指令: ```python import torch from transformers import CLIPProcessor, CLIPModel class VLA: def __init__(self): self.clip_model = CLIPModel.from_pretrained("openai/clip-vit-base-patch32") self.clip_processor = CLIPProcessor.from_pretrained("openai/clip-vit-base-patch32") self.controller = torch.nn.Linear(512, 3) # 输出控制指令:转向、加速、刹车 def process_input(self, image, text): inputs = self.clip_processor(text=text, images=image, return_tensors="pt", padding=True) outputs = self.clip_model(**inputs) image_features = outputs.image_embeds text_features = outputs.text_embeds combined_features = torch.cat((image_features, text_features), dim=1) control_commands = self.controller(combined_features) return control_commands # 示例使用 vla = VLA() image = "path_to_image.jpg" # 假设这是车辆摄像头捕捉到的图像路径 text = "前方有行人过马路,请减速慢行" # 语言指令 control_commands = vla.process_input(image, text) print(f"生成的控制指令: {control_commands}") ``` 这段代码展示了VLA如何利用CLIP模型提取图像和文本的特征,并通过一个简单的线性层生成控制指令。虽然这只是一个简化的示例,但它体现了VLA的基本工作原理[^2]。 ---
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值