点击下方卡片,关注“自动驾驶之心”公众号
大模型已经席卷各个领域,在智能驾驶领域,VLM也正在逐渐铺开落地量产。
不少入门的小伙伴也表示,现在大模型太重要了,想要入门学习,但有点拿不准方向。
以下是知识星球里面一位同学的提问:
请问VLA和VLM的区别是什么?现在推荐学哪个呢?
这两者互为表里:
1、VLM可以理解基础的能力,可以是通用的检测、问答、空间理解、思维链等等能力
2、VLA更侧重Action的能力,最终目的是为了做动作,在自动驾驶中可以理解为自车轨迹预测的能力,通时预测的轨迹又要尽可能的符合人类的理解,这又进一步依赖vision和language的基本能力,比如我要解释这个行为,可以使用思维链的形式一步步推理分析,这里面依赖自动驾驶基础的感知(行人在哪里,2D坐标,3D位置等等)
这两者没办法完全独立的学习,我认为的方式应该是先学VLM,再去扩展到VLA
VLM接扩散模型就可以预测轨迹,也就是Action,这块就涉及到多模轨迹的好处了,面对不确定的环境,单模的能力有限,多模的上限是更高的
最后欢迎大家加入知识星球,硬核资料在星球置顶:加入后可以获取自动驾驶视频课程、硬件及代码学习资料。业内最全的全栈学习路线图,独家业内招聘信息分享~
我们目标是未来3年内打造一个万人聚集的智能驾驶&具身智能社区,这里也非常欢迎优秀的同学加入我们(目前已经有华为天才少年、自驾领域研究前沿的多为大佬加入)。我们和多家业内公司搭建了学术 + 产品+ 招聘完整的桥梁和链路,同时内部在教研板块也基本形成了闭环(课程 + 硬件+问答)。社区里面既能看到最新的行业技术动态、技术分享,也有非常多的技术讨论、入门问答,以及必不可少的行业动态及求职分享。具身智能这么火,要不要考虑转行?自动驾驶技术的未来发展趋势如何?大模型如何预自动驾驶&具身智能结合?这些都是我们持续关注的
加入后如果不满意,三天内(72h)可全额退款!
带着对技术的思考,星球主要包含四大板块:
技术领域的全面分类和汇总;
科研界&学术界顶级大佬直播;
面向求职的资料汇总和岗位分享:
直击痛点的问题解答。
下面给大家分享下业内最前沿的四大技术方向,星球都汇总了哪些内容:视觉大语言模型、世界模型、扩散模型和端到端自动驾驶。前沿文章、数据集汇总、综述归纳应用尽有~
视觉大语言模型
世界模型



扩散模型






端到端自动驾驶











星友独家权益
第一时间掌握自动驾驶相关的学术进展和量产落地应用;
免费获得100+专业嘉宾的答疑解惑(有问必答)
永久免费浏览、下载星球内容(目前近5000干货内容,每天更新)
所有自动驾驶之心的付费课程8折优惠(价值近3000元)
学术界&工业界前沿直播视频免费无限期回放(一年近100场)
免费咨询求职招聘相关问题加入
专属VIP群,获得最新资讯