概述
**随着多模态大模型(VLMs)在自动驾驶领域中的快速发展,考量现有VLMs是否能够胜任智驾,以及如何面向智驾的实际应用 是非常具有应用价值的课题。为此,作者提出了*VLADBench*,一个具有挑战性且细粒度的评估数据集,包含从基础知识和静态元素到动态路况推理的封闭式问答。所提出的评估基准涵盖了五个关键领域:*交通知识理解*、*通用要素识别*、*交通图谱生成*、**目标属性理解**以及*自车决策与规划*。为了更精细的评估,这些领域进一步细分为二级的**11**个方面和三级的**29**个任务。*VLADBench*包含2000个静态和3000个动态场景,经人工挑选于12个开源数据集,标注QAs总计12K。
**作者首先在20个通用(4B->76B)和垂域的VLMs上进行了全面评估,揭示了它们在智驾领域中的优势与关键限制。进一步地,为了探索五大关键领域之间的认知与推理之间的交互关系,作者从一个小规模的通用模型出发,在各个领域的数据集上训练垂域模型(训练数据集构建于1.4M个开源QAs)。通过*VLADBench*, 分别验证五大领域数据对自动驾驶场景中的**理解推理**和*运动规划*上的作用。
**一系列实验结果表明,*VLADBench*能够更全面地评估VLMs在自动驾驶领域的性能表现,其五大关键领域的设计进一步推动模型向更具推理能力、更智能、更可靠的方向发展。
*结论*
- **当前的VLMs,包括Qwen2.5-VL-72B、GPT-4o 或垂域模型DriveMM,在*VLADBench*上的准确率仍未达到 60%,说明现有VLMs在面向智驾实际应用上仍有很大的提升空间。
- 在交通信号理解与图谱生成、交通参与者的意图判断、自车的决策这几个方面,现有模型表现得尤为糟糕,而这些是通往自动驾驶实际应用所必需的能力。
- 特定的垂域训练数据虽然可以在某些自动驾驶专用任务中提升模型性能,但却可能导致模型在某些需要通用知识和能力的智驾任务上表现不佳。
- 按照五个关键领域划分的垂域数据是相互关联的,不仅表现出了跨领域的互补优势,还展现出显著的协同效应。
- 扩展自动驾驶VLMs,提升视觉编码器的性能可能比单纯扩大语言模型的规模更为关键。
*介绍*
作者首先观察到现有的自动驾驶领域中的评估基准存在以下几个方面的不足:
- *粗粒度类别*: 现有的评估数据集通常将任务划分为感知、预测和规划等方面,无法全面评估自动驾驶面向实际应用时所需的认知和推理能力。
- *缺乏动态元素分析*: 现有的评估数据集侧重于静态场景,而忽略了对动态场景中时序推理能力(特别是交通参与者的意图理解和时空推理能力)的有效评估。
- *数据集同质化*: 现有评估数据集缺乏多样性,难以测试模型在各种真实场景下的泛化能力和对“corner cases”(极端情况)的处理能力。
*结构化分层设计*
***VLADBench*将自动驾驶任务分解为五个关键领域,每个领域又进一步细分为多个方面和任务。这种分层结构允许对VLMs的能力进行精细的评估,并识别模型在特定领域的优势和劣势。任务划分的目的是模拟人类驾驶员在不同认知层面上的决策过程,从对交通规则和环境的理解开始,到最终的驾驶决策和运动规划。
**下图展示了*交通知识理解*、*通用要素识别*、*交通图谱生成*中的图例。其中Rec表示识别,RL表示关系。

**下图展示了**目标属性理解**中意图判断以及*自车决策与规划*中关键物体检测和时空关系推理。

更多详细图例,请参见原文。
*封闭式问答设计*
**为了实现精确的评估,*VLADBench*采用了封闭式问答形式。每个问题都配有一组预定义的答案选项,模型需从中选出正确答案。这种方式有效避免了开放式问答中答案歧义性和主观性的影响,使得评估结果更加可靠和可重复。为了增加评估难度,答案选项通常在语义或结构上保持相似,从而提升了问题的挑战性。
*数据标注与评估指标*
*VLADBench* 从12个公共数据集中收集数据,确保了数据集的多样性和覆盖面。数据筛选和标注过程使用了具有相关经验的专业人员,对数据的难度进行统一的控制,并对收集到的数据进行标注。标注过程采用多重审核机制,以确保标注质量和一致性。评估指标主要由准确率和指令遵从率构成,此外针对不同的任务加入更细致的指标,如识别任务增加IOU指标,轨迹预测增加L2和碰撞率。
*VLADBench评估结果*
作者在20个开源和闭源的通用模型(4B->76B)以及垂域模型上进行了测试,部分测试结果如下。
(详细结果以及分析见原文。)

*五大领域的交互关系*
**由上表中垂域模型结果可以得出:特定的垂域训练数据可以在自动驾驶的某些专门领域提高性能,但可能会导致模型在需要更广泛和通用知识的任务中丧失泛化能力。为了深入探索本文五个关键领域之间的相互关系,我们使用不同领域的垂域数据集分别训练基模型(垂域训练数据来自于1.4M开源QAs,通用训练数据来自于1.3M开源QAs且数量保持不变),并在*VLADBench*上的不同领域进行测试。
与基模型相比的性能收益图如下所示:

我们可以看出每个领域数据的作用并非孤立存在,它们也会对其他领域产生积极的影响。当所有数据一起训练时,模型出现明显的协同效应,除交通图谱生成外,各领域的表现均高于单独训练每个领域时的表现。
*五大领域对运动规划的影响*
最后,作者将轨迹预测任务单独取出,分别验证模型五大领域能力对运动规划的影响。训练过程中,作者基于nuScenes中构建了4K个带有场景分析和轨迹预测的数据集,并结合上述的各领域数据进行训练,在800个数据上进行测试。实验结果如下:

可以观察到,GER(通用要素识别)数据对轨迹预测任务最为重要,其次是EDP(自车决策与规划)数据。TKU(交通知识理解)数据的结果与EDP数据相当,这表明交通知识的理解在轨迹预测中也起到了至关重要的作用,而这是传统模型无法实现的能力。尽管TGG(交通图谱生成)和TAC(目标属性理解)数据在L2距离方面的实验结果较差,但它们显著降低了短期内的碰撞率。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】

1171

被折叠的 条评论
为什么被折叠?



