学习端到端大模型，还不太明白VLM和VLA的区别。。。

最新推荐文章于 2025-06-28 09:46:22 发布

自动驾驶之心

最新推荐文章于 2025-06-28 09:46:22 发布

阅读量179

点赞数

CC 4.0 BY-SA版权

文章标签：学习

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247668571&idx=1&sn=8333253b01f6df9b1317f198c93b663d&chksm=cf499913a87f492b56d7412574a0403ac0e590beba248cda0dd2915c7b939477fc6771dfde61&scene=126&sessionid=0

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

大模型已经席卷各个领域，在智能驾驶领域，VLM也正在逐渐铺开落地量产。

不少入门的小伙伴也表示，现在大模型太重要了，想要入门学习，但有点拿不准方向。

以下是知识星球里面一位同学的提问：

请问VLA和VLM的区别是什么？现在推荐学哪个呢？

这两者互为表里：

1、VLM可以理解基础的能力，可以是通用的检测、问答、空间理解、思维链等等能力

2、VLA更侧重Action的能力，最终目的是为了做动作，在自动驾驶中可以理解为自车轨迹预测的能力，通时预测的轨迹又要尽可能的符合人类的理解，这又进一步依赖vision和language的基本能力，比如我要解释这个行为，可以使用思维链的形式一步步推理分析，这里面依赖自动驾驶基础的感知（行人在哪里，2D坐标，3D位置等等）

这两者没办法完全独立的学习，我认为的方式应该是先学VLM，再去扩展到VLA

VLM接扩散模型就可以预测轨迹，也就是Action，这块就涉及到多模轨迹的好处了，面对不确定的环境，单模的能力有限，多模的上限是更高的

最后欢迎大家加入知识星球，硬核资料在星球置顶：加入后可以获取自动驾驶视频课程、硬件及代码学习资料。业内最全的全栈学习路线图，独家业内招聘信息分享~

我们目标是未来3年内打造一个万人聚集的智能驾驶&具身智能社区，这里也非常欢迎优秀的同学加入我们（目前已经有华为天才少年、自驾领域研究前沿的多为大佬加入）。我们和多家业内公司搭建了学术 + 产品+ 招聘完整的桥梁和链路，同时内部在教研板块也基本形成了闭环（课程 + 硬件+问答）。社区里面既能看到最新的行业技术动态、技术分享，也有非常多的技术讨论、入门问答，以及必不可少的行业动态及求职分享。具身智能这么火，要不要考虑转行？自动驾驶技术的未来发展趋势如何？大模型如何预自动驾驶&具身智能结合？这些都是我们持续关注的

加入后如果不满意，三天内（72h）可全额退款！

带着对技术的思考，星球主要包含四大板块：

技术领域的全面分类和汇总；
科研界&学术界顶级大佬直播；
面向求职的资料汇总和岗位分享：
直击痛点的问题解答。

下面给大家分享下业内最前沿的四大技术方向，星球都汇总了哪些内容：视觉大语言模型、世界模型、扩散模型和端到端自动驾驶。前沿文章、数据集汇总、综述归纳应用尽有~

视觉大语言模型

世界模型

扩散模型

端到端自动驾驶

星友独家权益

第一时间掌握自动驾驶相关的学术进展和量产落地应用；
免费获得100+专业嘉宾的答疑解惑（有问必答）
永久免费浏览、下载星球内容（目前近5000干货内容，每天更新）
所有自动驾驶之心的付费课程8折优惠（价值近3000元）
学术界&工业界前沿直播视频免费无限期回放（一年近100场）
免费咨询求职招聘相关问题加入
专属VIP群，获得最新资讯

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。