VLM与VLA的区别是什么?当前自动驾驶落地的情况怎么样?

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

去年理想对外展示快慢系统后,VLM在自驾的应用落地正式对外展露。今年智驾行业又在主推VLA,相比于端到端+VLM方式,VLA方案拥有更高的场景推理能力与泛化能力。不少智驾领导者都将VLA视为当下“端到端”方案的2.0版本,VLA也被看成是端到端+VLM的合体。VLM关注的重点在于环境建模,VLA除了考虑环境建模,还需要关注规划和控制问题,这是两者的区别。

VLM的应用怎么样?

视觉语言模型在座舱域的应用可能更加直接,交互也容易些。这也是为什么座舱域更容易接入。VLM在自驾域的应用,分为辅助功能和直接预测轨迹。

理想的快慢系统给出了第一个辅助应用的答案,这一点发布会上有很清晰的描述。端到端模型速度快,大模型帧率低,无法实时交互,那么是否可以把VLM输出的结果给未来帧作为参考,提供一定的经验或者矫正,无论是特征级别还是后处理层面,相信是一个很好的辅助。地平线的Senna也给出了具体的方案,VLM的缺点是对于精确的数值预测不是很好,但是对于预测意图或者粗粒度的规划是很好的,E2E系统到现在依然无法解决一些复杂的长尾场景。Senna工作中,VLM做高层次的planning decisions,进而指引E2E系统的轨迹预测。

43d89fff54ddf4c8c683c43939d03090.png

当下公开的论文,像DriveGPT、DriveGPT4、DriveVLM、OmniDrive等任务直接输出规划或预测轨迹点信息,这一点接近了VLA本身,但存在真实场景中高质量数据收集较难、实时部署较难等一系列的问题。如果只有纯视觉输入,除了参数量,本质上可以用端到端模型来替代,但参数量上来了,模型的性能上限也会出现非常大的差异。

VLA可能有哪些优势?

可以说VLA是端到端2.0,VLA的关键特性是思维链,这一点和当下的端到端有所不同,例如潮汐车道,基于VLA的智能驾驶车辆,能通过文本等看懂可逆车道的道路标志,从多重信息中确认此时的潮汐车道是否可行驶,并通过转向灯等与其他车辆交互,随即变换车道,进行转向,最终行驶至潮汐车道中。利用类人的思维,通过对全局上下文的了解,去了解车道的情况,与其他车辆交互,并做出最优的、安全的决策。

VLA大模型直接用统一的参数处理原来的分层任务,和现在的端到端模型相似。但大模型的参数量大,微调到下游任务也比较方便。

VLA具备更强的泛化能力,这一点和具身领域比较相似,零样本、新场景的泛化能力会有明显提升。

VLA在自动驾驶中应用会有哪些难点?

高质量数据依然是瓶颈,即使是finetune,怎么解决数据分布不均衡问题,怎么减少模型本身的经验导致的错误输出?

VLA的部署,算力上支持的不是很好,英伟达的Thor也许是一个很好的解决方案,千T的算力加持。极氪自研的浩瀚智驾系统率先成为全球首款搭载英伟达Thor芯片的量产车型,期待后面的自驾公司产生更多有效、稳定的方案!

VLM/VLA在训练中可以增强端到端任务

VLM和VLA也可以很有效增强现有端到端任务,主要体现在以下部分:

提升泛化能力,处理长尾场景:通过引入LLM,E2E模型能够更好地处理罕见和复杂的驾驶场景,知识迁移可以完成长尾场景的学习,大模型的零样本能力也是值得关注的点。

丰富的语义信息,辅助推理:视觉语言模型可以生成更有解释性的结果,为E2E模型提供了丰富的语义信息,帮助模型更好地理解驾驶环境。

提高规划性能,降低轨迹误差:DiMA在nuScenes数据集上实现了37%的L2轨迹误差降低。多模的轨迹输出更符合现实需求,进而减少碰撞率:VLM-AD和DiMA均显著降低了碰撞率。

知识蒸馏助力实时部署:通过将大模型的知识蒸馏到更小的模型中,可以在保持高性能的同时显著减少计算量和模型大小。

增强可解释性:VLM-AD通过预测人类可解释的动作标签,增强了模型决策的可解释性。

减少对大规模数据集的依赖:通过LLM生成的合成数据或推理注释,可以在数据稀缺或隐私受限的场景下训练模型。 VLM可以自动生成高质量的标注数据,减少人工标注的成本和时间。

其它

后面会继续保持跟进, 补充.....

这里也推荐下我们平台打造的《多模态大模型与自动驾驶实战课程》和《具身智能VLA算法与实战教程》。课程分别聚焦在通用大模型训练&微调和具身智能VLA领域。

多模态大模型课程大纲如下:

图片

主讲老师:Sora老师,业内一线大厂高级算法工程师。研究方向多模态大语言模型、Agent等,从事座舱大模型落地和端到端大模型落地工作。在算法设计、模型部署、工程化落地上具有丰富经验,参与过国内、国外多个车厂与车型的poc及sop交付量产项目。

扫码立享拼团优惠!一起走向大模型新世界~

c931e92d2634af310988178179947317.png

具身智能VLA课程大纲如下:

a3b8604cea1ca734578a2b8fa9dc0acc.png

主讲老师:Perry老师,在智能机器人和人工智能领域具有深厚的学术背景和丰富的实践经验。曾在多个顶级会议:RSS、ICLR、CVPR、ECCV、ICRA和IROS上发表研究。丰富的具身智能实战和研究经验,运用生动的案例和互动式教学,帮助学员深入理解复杂概念,激发对该领域的兴趣与探索。

扫码立享拼团优惠!一起走向大模型新世界~

87777a63fa9c21f98594fb5d8a435b92.png

<think>嗯,用户让我介绍一下VLAVLM,这两个都是计算机视觉和自然语言处理结合领域的重要模型。首先,我需要确认这两个缩写的全称是什么。VLA应该是Vision-Language-Action,而VLM是Vision-Language Model。对吗?可能用户对这两个概念有点混淆,或者想了解它们之间的关系和区别。 接下来,我需要回忆这两个模型的基本定义和应用场景。VLM,也就是视觉语言模型,主要用于理解和生成图像相关的文本,比如图像描述、视觉问答等。而VLA,视觉语言动作模型,可能更侧重于将视觉和语言信息结合到具体的动作或决策中,比如机器人控制、自动驾驶等需要根据视觉和语言指令执行动作的场景。 用户可能想知道它们各自的特点、应用以及区别。可能需要先分别介绍每个模型,再比较它们的异同点。比如,VLM专注于感知层面,处理视觉和语言的交互,而VLA则在感知的基础上增加了执行动作的能力,属于更复杂的系统。 还要注意用户的需求是否涉及技术细节,比如模型结构、训练方法等。不过用户只是要求介绍,可能需要保持解释的简明易懂,避免过于专业的术语,但又要准确。比如,VLM可能使用Transformer架构,通过多模态融合处理图像和文本;而VLA可能在VLM基础上加入强化学习或动作预测模块。 需要确认是否有最新的研究成果或典型模型,比如VLM中的CLIP、Flamingo,VLA中的Gato、RT-2等。举例说明可以帮助用户理解。 另外,用户可能对两者的应用场景感兴趣。比如VLM用于图像搜索、自动标注,VLA用于机器人执行复杂任务。需要明确两者的不同应用方向。 最后,总结两者的联系区别,强调VLAVLM的基础上增加了动作执行的能力,形成感知-决策-执行的闭环。这样用户就能清晰理解两者的定位和关系。</think>### **VLA(Vision-Language-Action) VLM(Vision-Language Model)介绍** #### **1. VLM(视觉语言模型)** - **定义**: VLM 是一种结合 **视觉(图像/视频)** **语言(文本)** 的多模态模型,能够理解图像内容并生成相关文本描述,或根据文本指令分析视觉信息。 - **核心能力**: - **跨模态对齐**:将图像特征文本语义关联(例如:识别图像中的狗并生成“一只金毛犬在草地上奔跑”)。 - **任务场景**: - **图像描述生成**(Image Captioning) - **视觉问答**(VQA,如“图片中有几只猫?”) - **图文检索**(用文字搜索图片,或用图片搜索文字) - **典型模型**: - **CLIP**(OpenAI):通过对比学习对齐图像和文本特征。 - **Flamingo**(DeepMind):支持多轮对话的视觉语言模型。 - **BLIP-2**:结合预训练视觉编码器大语言模型(如 GPT)。 --- #### **2. VLA(视觉语言动作模型)** - **定义**: VLAVLM 的基础上增加了 **动作决策控制** 能力,形成“感知-理解-决策-执行”的闭环系统,直接将视觉和语言输入映射到物理动作。 - **核心能力**: - **多模态推理**:结合视觉、语言和环境状态,规划动作(例如:根据指令“拿起红色积木”控制机器人手臂)。 - **任务场景**: - **机器人操作**(如家庭服务机器人) - **自动驾驶**(根据路况和导航指令调整车速) - **具身智能**(智能体在虚拟/真实环境中交互) - **典型模型**: - **RT-2**(Google DeepMind):将视觉语言模型机器人动作策略结合,实现泛化操作能力。 - **Gato**(DeepMind):通用多模态模型,可处理文本、图像、动作序列。 --- #### **3. 核心区别** | **维度** | **VLM** | **VLA** | |----------------|----------------------------------|----------------------------------| | **目标** | 理解视觉语言的关系 | 将感知转化为物理动作 | | **输出** | 文本或跨模态特征 | 控制指令(如机械臂轨迹、车速) | | **应用场景** | 图像分析、内容生成 | 机器人、自动驾驶、交互式系统 | | **技术挑战** | 跨模态对齐、生成一致性 | 动作安全性、环境实时响应 | --- #### **4. 联系趋势** - **VLA 依赖 VLM 的基础能力**:VLA 通常以 VLM 为感知层,通过强化学习或动作预测模块扩展决策能力。 - **发展方向**: - **端到端训练**:从原始输入(图像+文本)直接输出动作,减少模块分割。 - **通用智能体**:构建能适应多任务、多场景的“全能型”VLA 系统(如具身通用人工智能)。 若需进一步了解具体模型或技术细节,可随时提出! 🚀
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值