蔚来任少卿:世界模型解决的是时空认知,VLA做不到。

晚上的时候看到了晚点团队采访蔚来任少卿的文章,把里面关于VLA和WA的观点提炼出来分享给大家。

晚点团队原文链接:任少卿的智驾非共识:世界模型、长时序智能体与 “变态” 工程主义

任少卿认为智能驾驶真正的上限在世界模型,即以视频为核心,通过跨模态的互相预测和重建,让系统学习时空和物理规律,再叠加语言层去交互与注入知识,让机器能像人一样理解环境。

世界模型解决的是时空认知,语言模型解决的是概念认知。语言模型低带宽和稀疏性无法真正有效的建模真实世界的四维时空(时间+空间)。

世界模型的认知包含两个层面:

  • 物理规律的内建:比如重力、惯性、速度变化,这些规律必须在模型内部形成;

  • 时空操作能力:能理解和预测物体在三维空间 + 时间维度的运动,比如车辆绕行、机器人搬运。

但VLA本质还是语言模型的模态扩展。 这些扩展虽然加入了新模态,但 “根” 依然在语言模型上。它像是在原有的语言体系上不断 “加模态”。

但世界模型不是 “语言加法”,而是要建立一套高带宽的认知系统。因为语言通道的带宽太低了。人类如果没有眼睛,只靠嘴和耳朵交流,效率会有多低?眼睛带来的视觉带宽就大得多。世界模型要直接在视频端建立能力,而不是先转成语言。

现在的智驾系统,你和它的交互都还是闭集的。而自动驾驶的终极目标是通过 Open-set(开放集指令交互) 智能引擎实现真正的开放式交互。所谓 Open-set,就是把 L(语言)和 A(动作)彻底变成开放的:用户不再局限于输入有限的指令集,而是能够随意表达,系统也都能正确理解并执行。

从有限集到无限集——这才是语言加进去的终极意义。只是这一步我们还没做到。

本质上华为做的是世界模型,只是强调点不同。蔚来去年七月份之前就提过世界模型这个概念。

VLA、WA 这些名字,更多是表述方式的差别。关键还是要看它是否真正建立了时空认知能力,而不仅仅是在语言模型上做加法。

但任少卿认为语言仍然是很重要的,它有三大价值:

  • 海量数据:语言模型吸收了海量互联网案例(尤其是 “彩色案例”,即有代表性和复杂性的场景)。这些数据对自动驾驶训练非常有帮助。

  • 推理能力:通过链式推理(CoT, Chain of Thought),语言模型能带来一定的逻辑推理,弥补世界模型目前还未建立的细粒度推理。

  • 人机交互:用户需要能像跟司机沟通一样,直接告诉车 “开进小区,左转,在楼下停”。这需要自然语言接口,而不仅仅是导航按钮或固定选项。

语言模型带来的是 “概念认知”,世界模型带来的是 “时空认知”。把这两块拼在一起,最后才会走向 AGI。

以上。

自动驾驶这两年高度内卷,前沿技术栈趋于收敛,量产方案趋同,很多小伙伴都觉得自驾卷到头了,决定转行去具身,我们也看到一些业内大佬辞职投身具身的创业洪流。如何破局成了大家讨论的最多的话题。所以我们也看到VLA/WA的路线之争,以及在这背后一轮更大的行业变革。

对于处在自驾领域的个人来说,变革是挑战更是机遇。真正留在行业内担当主力的,都是综合型人才,技术栈特别丰富。抱着“捞一波”行情的心态,不可能长久,洗牌也是早晚的事情。广屯粮,筑高墙是个一直受用的真理。

扫码加入!抢占大额优惠

扛内卷,一个足够有料的社区

对于很多想入门的同学来说,试错成本有点高。没时间和缺乏完整的体系是最大问题,这也容易导致行业壁垒越来越高,如果想要卷赢那就更加困难了。

所以我们联合了诸多学术界和工业界的大佬,共同打造了我们维护三年之久的『自动驾驶之心知识星球』!星球目前集视频 + 图文 + 学习路线 + 问答 + 求职交流为一体,是一个综合类的自驾社区,已经超过4000人了。我们期望未来2年内做到近万人的规模。给大家打造一个交流+技术分享的聚集地,是许多初学者和进阶的同学经常逛的地方。

如果你也想和我们一起推动自驾领域的进步,欢迎加入我们的社区团队,和我们一起推动!我们推出了今年最大的优惠券给大家,欢迎微信扫码领取,还有少量~

扫码加入!抢占大额优惠

社区内部还经常为大家解答各类实用问题:端到端如何入门?自动驾驶多模态大模型如何学习?自动驾驶VLA的学习路线。数据闭环4D标注的工程实践。快速解答,方便大家应用到项目中。

更有料的是:星球内部为大家梳理了近40+技术路线,无论你是咨询行业应用、还是要找最新的VLA benchmark、综述和学习入门路线,都能极大缩短检索时间。星球还为大家邀请了数十位自动驾驶领域嘉宾,都是活跃在一线产业界和工业界的大佬(经常出现的顶会和各类访谈中哦)。欢迎随时提问,他们将会为大家答疑解惑。除了上面的问题,我们还为大家梳理了很多其它的内容:

  • 端到端自动驾驶如何入门?一段式/二段式量产中如何使用?

  • 传统规划控制想转端到端VLA,求学习路线图!

  • 自动驾驶多模态大模型预训练数据集有哪些?求自动驾驶VLA微调数据集?

  • 多传感器融合现在还适合就业吗?

  • 3DGS和闭环仿真如何结合?应用中需要考虑哪些元素?

  • 世界模型是个啥?业内如何应用,研究还有切入点么?

  • 业内哪家公司前景好一些,适合跳槽,都有什么岗位开放招聘?求星主内推~

  • 博士入学,哪个方向容易出成果?

  • 闭环强化学习如何入门?

  • 端到端自动驾驶学习路线推荐。

  • ......

我们会不定期和一线的学术界&工业界大佬畅聊自动驾驶发展趋势,探讨技术走向和量产痛点:

这是一个认真做内容的社区,一个培养未来领袖的地方。星球内部梳理了近40+自动驾驶技术方向,同时也有面向求职的问答梳理。

针对入门学习的同学,我们更是准备了全栈方向的学习课程,非常适合0基础的小白。

我们还和多家自动驾驶公司建立了岗位内推机制,欢迎大家随时艾特我们。第一时间将您的简历送到心仪公司的手上。

针对入门者,我们整理了完备的小白入门技术栈和全栈路线图。

已经从事相关研究的同学,我们也给大家提供了很多有价值的产业体系和项目方案。

欢迎和我们一起打造完整的自驾生态。

国内首个自驾全栈社区:自动驾驶之心知识星球

社区创建的出发点是给大家提供一个自动驾驶相关的技术交流平台,交流学术和工程上的问题。星球内部的成员来自国内外知名高校实验室、自动驾驶相关的头部公司,其中高校和科研机构包括但不限于:上海交大、北京大学、CMU、清华大学、西湖大学、上海人工智能实验室、港科大、港大、南洋理工、新加坡国立、ETH、南京大学、华中科技大学、ETH等等!公司包括但不限于:蔚小理、地平线、华为、大疆、广汽、上汽、博世、轻舟智航、斑马智行、小米汽车、英伟达、Momenta、百度等等。前沿技术聚集地一直是自动驾驶之心的标签!

我们为大家汇总了近40+开源项目、近60+自动驾驶相关数据集、行业主流自驾仿真平台、以及各类技术学习路线,包括但不限于:

自动驾驶感知学习路线

自动驾驶仿真学习路线

自动驾驶规划控制学习路线

端到端学习路线

3DGS算法原理

基于搜索的规划

VLA学习路线

NeRF原理

基于采样的规划

多模态大模型

Carla仿真

基于车辆运动学的规划

占用网络

Apollo仿真

基于数值优化的规划

BEV感知

Autoware仿真

横纵解耦规划框架

扩散模型

联合仿真

横纵联合规划框架

世界模型

自驾仿真产品架构分析

基于几何的路径跟踪

多传感器融合

闭环仿真

模型预测控制

轨迹预测

相关数据集

联合预测

......

......

......

这里能够让小白快速入门,让已经入门的同学进一步提升,已经提升的同学结交更多的朋友。

日常分享和讨论的问题

  • 端到端自动驾驶如何入门?一段式/二段式量产中如何使用?

  • 传统规划控制想转端到端VLA,求学习路线图!

  • 自动驾驶多模态大模型预训练数据集有哪些?求自动驾驶VLA微调数据集?

  • 多传感器融合现在还适合就业吗?

  • 3DGS和闭环仿真如何结合?应用中需要考虑哪些元素?

  • 世界模型是个啥?业内如何应用,研究还有切入点么?

  • 业内哪家公司前景好一些,适合跳槽,都有什么岗位开放招聘?求星主内推~

  • 博士入学,哪个方向容易出成果?

  • 闭环强化学习如何入门?

  • 端到端自动驾驶学习路线推荐。

  • ......

加入星球有哪些福利?

  • 第一时间掌握自动驾驶相关的学术进展、工业落地应用;

  • 和行业大佬一起交流工作与求职相关的问题;

  • 优良的学习交流环境,能结识更多同行业的伙伴;

  • 星球内部专属学习视频,搭配文档不枯燥;

  • 自动驾驶相关工作岗位推荐,第一时间对接企业;

  • 行业机会挖掘,投资与项目对接。

星球内容一览

星球内容一览!

0)国内外自动驾驶与机器人高校汇总

星球内部为大家汇总了自动驾驶&机器人多个研究方向的国内外知名实验室,供大家后期读研、申博、博后参考。

1)国内外自动驾驶公司汇总

星球内部为大家汇总了各类国内外各类自动驾驶相关机器人公司,涉及RoboTaxi、重卡业务、造车新势力等等!

2)自动驾驶及CV相关书籍汇总

星球内部汇总了自动驾驶和CV相关的学习书籍,涵盖数学基础、计算机视觉、深度学习入门、coding、运动规划、自动驾驶传感器、ROS系统学习指南等等~

3)开源项目汇总

星球内部针对3D目标检测、BEV感知、世界模型、闭环仿真3DGS、自动驾驶大模型、端到端自动驾驶等多个领域的开源项目进行了汇总,助力快速上手。

4)自动驾驶开源数据集

星球内部针对自动驾驶相关数据集进行了详细的梳理,针对通用CV数据集、感知相关数据集、轨迹预测等等。尤其是自动驾驶多模态大模型数据集,我们详细梳理了自动驾驶VLM预训练数据集、微调数据集、思维链数据集、强化学习数据集等等~

5)端到端自动驾驶

针对学术界和工业界的研究热点 - 端到端自动驾驶,我们详细梳理了一段式端到端、二段式端到端、量产方案、综述汇总、里程碑方法、VLA相关算法等等,兼顾学术界和工业界,真正做到知行合一~

6)3DGS与NeRF

我们为大家汇总了3DGS和NeRF的相关技术领域,3DGS的算法原理、自动驾驶场景重建与闭环仿真、NeRF与自动驾驶仿真,NeRF与自动驾驶感知,同时我们也邀请到诸位学术界大佬分享3DGS和NeRF的最新工作,这里全都有!

7)自动驾驶世界模型

针对当前学术界和工业界的热点 - 自动驾驶世界模型,星球内部做了详细的汇总,涵盖技术前沿和业界应用。

8)视觉语言模型(VLM)

我们汇总了自动驾驶VLM最新综述、开源数据集、思维链推理、量产方案快慢双系统DriveVLM等多项内容,让大家对这一前沿领域可以更深入的理解。

9)自动驾驶VLA

针对2025年最火的自动驾驶VLA,我们详细梳理了最新的综述、VLA开源数据集、作为语言解释器的相关算法、模块化VLA、端到端VLA和推理增强VLA,更有诸多关于VLA量产的讨论,在这里有你想知道的一切~

10)自动驾驶规划控制

星球内部汇总了传统规划内容的相关技术栈,包括但不限于规划控制基础算法、决策规划框架和常用控制算法。

11)扩散模型

扩散模型作为当下的研究热点,星球内部也做了非常详细的梳理,从算法原理,到数据生成、场景重建、端到端、世界模型结合、大模型结合等等!

12)BEV感知

BEV感知作为当下量产的基石,星球内部做了非常成熟的梳理,纯视觉、多模态、多任务、激光雷达和相关数据集以及工程部署等等~

13)3D目标检测

针对3D目标检测领域,我们梳理了环视方法、range-view、基于voxel、Point及多模态方向。

14)多传感器融合

15)在线高精地图

在线高精地图是无图NOA量产方案的核心,星球详细梳理了近几年学术界和工业界关注最多的工作。

16)Occupancy Network

17)轨迹预测

18)自动驾驶-强化学习

强化学习是VLM必备的组件,星球内部梳理了强化学习理论、常用算法、优秀公开课、热门工作等等内容,一应俱全!

19)车道线检测

20)标定工具

21)分割任务

22)CUDA与模型部署

23)模型部署实战

24)目标跟踪

25)2D目标检测

26)V2X

27)SLAM

28)自动驾驶仿真

29)鱼眼感知

30)3D分割

31)大模型与自动驾驶

星球内部学习教程

星球内部会员独享七大福利视频教程!涵盖世界模型、自动驾驶大模型、Transformer、3D目标检测、毫米波感知等等...

星球内部直播分享

星球内部不定期邀请行业大佬直播分享,直播内容可以反复观看,部分直播内容一览!目前已经超过一百场专业技术直播!!!

星球内部交流

星球成员可以在星球内部自由提问,无论是工作选择还是研究方向选择,都能得到解答~

行业大佬交流

不定期分享和业内大佬的观点交流!

扫码加入

欢迎扫码加入我们的社区,和近300家机构与自驾公司成员一起交流产业、产品、求职等内容。

### ACT模型VLA模型的关系或区别 ACT模型(Action Conditional Transformer)和VLA模型(Vision-Language-Action Model)在IT领域中属于不同的研究方向,尽管它们都涉及多模态学习和机器人任务中的决策支持。以下是两者的具体关系和区别: #### 1. **模型设计目标** - VLA模型是一种多模态基础模型,旨在通过结合视觉、语言和动作数据来增强机器人的具身能力[^3]。它首先在大规模互联网数据集上进行预训练以获得通用的知识,然后通过现实世界中的机器人数据进行微调。 - ACT模型则专注于基于条件的行动预测,通常用于强化学习或规划任务中。它利用Transformer架构来建模动作序列,并根据当前状态和历史信息生成未来的动作[^2]。 #### 2. **数据来源与训练方式** - VLA模型的训练过程分为两个阶段:第一阶段是在大规模互联网数据集上进行预训练,以获取广泛的背景知识;第二阶段是使用实际的机器人数据进行微调,使其适应特定的任务环境[^1]。 - ACT模型的训练主要依赖于任务相关的数据,例如模拟器中的轨迹数据或真实环境中的交互数据。它的重点在于学习如何根据给定的条件生成最优的动作序列。 #### 3. **应用领域** - VLA模型广泛应用于机器人具身智能任务,例如导航、物体操作和人机交互。它通过整合视觉、语言和动作信息,为机器人提供更全面的理解和执行能力[^3]。 - ACT模型更多地应用于需要精确动作控制的任务,例如游戏AI、自动驾驶或机械臂控制。它能够生成高效的策略,以实现特定的目标[^2]。 #### 4. **技术特点** - VLA模型强调处理数据的异质性问题,包括不同机器人平台的动作空间差异和控制接口的多样性[^3]。这使得VLA模型在跨平台任务中表现出更强的适应性。 - ACT模型的核心优势在于其对动作序列的建模能力。通过Transformer架构,它可以捕捉长时间的动作依赖关系,并生成高质量的动作计划。 #### 5. **是否等同** ACT模型并不等同于VLA模型。虽然两者都涉及动作预测,但它们的设计目标、训练方法和应用场景存在显著差异。VLA模型是一个多模态基础模型,而ACT模型则是专注于动作条件预测的特定模型。 ```python # 示例代码:ACT模型的基本架构 class ACTModel(nn.Module): def __init__(self, input_dim, hidden_dim, output_dim): super(ACTModel, self).__init__() self.transformer = nn.Transformer( d_model=hidden_dim, nhead=8, num_encoder_layers=6, num_decoder_layers=6 ) self.fc = nn.Linear(hidden_dim, output_dim) def forward(self, x): # 输入x包含状态和历史动作信息 out = self.transformer(x) action = self.fc(out) return action ``` ###
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值