关于理想VLA司机大模型的22个QA

作者 | 理想TOP2 来源 | 理想TOP2

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>自动驾驶前沿信息获取自动驾驶之心知识星球

本文只做学术分享,如有侵权,联系删文

原文:来自微博用户红石驾驶员

原文链接:https://weibo.com/7983184984/PDnOJkyiI

问题1:从无图NOA到端到端生命周期都比较短,半年到一年左右就开始转架构了。VLA的技术潜力如何?大部分人在端到端都已经拥有了1000万Clips的数据量,基本上已经饱和到了边际数据递减,开始转向VLA架构,VLA会是一个长期架构么?是否能支持到城区自动驾驶?

郎咸朋:VLA有很强的技术潜力,端到端让自动驾驶从人工变成AI,但仅靠V(视觉)和A(动作)不够,VLA架构思路来源于机器人和具身智能,是长期架构。从某种程度上看,自动驾驶也是四轮机器人,VLA架构会延续到机器人繁荣之后才可能被替代,技术潜力大,更符合人类智能发展规律,能支持城区自动驾驶。

问题2:您认为VLA在Thor-U芯片上的运转速度能到多少?目前的10Hz应该只是一个起点,是否可以做到更高?特斯拉最新的FSD运转速度是多少?

詹锟:Thor-U架构支持先进的推理精度和混合精度,目前使用INT8和FP8(业界主流),已做到10Hz。Thor-U支持FP4,FP4算力是FP8的一倍(FP8为700算力时,FP4可达1400算力),推理帧率可从10Hz提升到20Hz。此外,通过优化底层数据、算法架构和硬件适配,未来几个月可能达到20Hz、30Hz。(未提及特斯拉FSD运转速度)

问题3:VLA在双Orin平台能部署到什么情况?Thor平台上能做到10Hz的推理帧率,在双Orin平台上能做到多少?

郎咸朋:VLA模型研发之初就决定支持每个平台,且无差别支持,重点关注模型部署帧率和差异,两个平台同步推进。功能和模型表现上,双Orin平台与Thor平台同步且无差别,请AD Max车主放心。目前内部在优化模型,每天迭代,最终交付时帧率会优于现在。

问题4:有些友商在自研芯片,未来理想汽车会不会自研芯片?是否自研芯片是基于什么去决策和判断的?

郎咸朋:目前VLA技术架构和模型尚未最终定型。自研芯片对自身模型支持更好,而英伟达通用芯片对各种模型和算子的通用性更强。理想目前用英伟达芯片部署和探索模型,希望保持通用性,不被锁死在特定算子和架构上,待模型架构通用性解决后,可能考虑其他可能性。

问题5:VLA里的L(语言)对行车的体验是锦上添花还是雪中送炭?用新的方式或新的架构带来的收益或提升会是怎样的?这个变化会很明显吗?

郎咸朋:语言理解能力是必要的(除非依赖先验地图等其他信息)。若未来实现L4或纯无人(如MEGA Home),无语言能力无法操作车辆。更本质的是,有了L之后,CoT(思维链)能力增强,能提升模型对复杂或未知场景的处理能力。有无L是模型是否具备深度思考能力的关键,并非锦上添花或雪中送炭,而是核心能力的提升,变化会很明显。

问题6:未来其实是这种泛化的表现吗?比如场景。

郎咸朋:VLA的泛化能力并非仅依赖数据输入,而是通过强化学习或训练形成思维能力,遇到新问题时能自主思考。类似人类从经验中学习处理问题的方式,无需反复碰壁就能成长,具备对新场景的泛化处理能力。

问题7:请详细介绍一下3.2B的MoE车端模型的升级周期。业界对于扩散模型的出轨迹的时延问题一直比较难解,理想在做VLA时为何可以通过几步较快去噪并实现一个比较稳定收敛的轨迹?

詹锟: 3.2B的MoE车端模型升级周期分两种:重新训练预训练(改变基座)以月为单位更新,与基座模型团队合作,每月更新并提升空间理解、语言理解、文字识别等能力;后训练更新取决于问题,引入数据或新增prompt即可解决,与大模型迭代思路一致。

扩散模型能快速去噪是因为采用新方法(如DPIM、flow matching流匹配),可大幅减少迭代步骤。目前用流匹配2-3步即可出轨迹,且多轨迹并行生成,芯片算力足够,时延低(约15毫秒)。

问题8:VLA本身是具备思维链的过程,在VLA的阶段超级对齐这件事儿还有意义吗?思维链本身就是在做一次对齐,人类规则包括现实的一种对齐,VLA还需要做吗?

詹锟:有意义。CoT是VLA/VLM的思考模式(用Token思考),而超级对齐关注思考模式是否符合人类价值观和用户期望的驾驶行为,包括RLHF模型对齐、人类偏好对齐等。VLA中会继续存在,先用超级对齐RLHF优化CoT,例如采样8种CoT逻辑,通过偏好模型筛选符合人类价值观的。

问题9:今天体验发现它的能力还是会在部分的环境有点退步,比如说我们遇到了一个慢车,就会一直迟疑着没有超车。但如果现在是我现在的理想L9可能就超过去了(当时的路段是双向的,但是每个向只有一个车道,左边中间是虚线它是可以借道超车的情况,旁边没有别的车,只有前面一辆车),这是为什么?

郎咸朋:与价值观对齐有关,当前VLA更偏安心舒适、合规,仿真评分中合规性优于OTA7.5版本。若场景中是虚线,理论上可借道,但目前版本调优偏好偏稳妥。若对VLA下达“超过前面的三轮车”的指令,它可能回复“当前单车道不想跨实线”。

问题10:地库里现在最快只能15公里每小时,但实际上人类的话肯定要超过这个时速的,如果是我的话,我就不会去用它了,我会很着急那这个问题怎么解决?

郎咸朋:进一步提升能力并做好测试后,会逐步提高车速上限(目前已从10公里提升到15公里)。

问题11:现在靠边停车的动作还有比如说让它往前走几米这种动作,以及还有掉头的动作都会比较缓慢,这和帧率是有一定关系的吗?

詹锟:与帧率无关。往前走几米无需快速起步,所以缓慢;掉头动作较慢是因当前版本处于初期调试阶段,涉及底盘控制信号的挂挡问题,属工程实现层面调整,与时延无关。

问题12:目前的状态下,如果我在路边接人,我可能不会去使用。因为现在我得告诉它往前开,我一脚油过去,然后一脚油刹住,让人赶紧上来。感觉离能够使用还比较远,我现在看不到它能做成什么样。那么未来到底怎么使用?它能做到实用吗?

郎咸朋:不同人群会逐步接受产品(早期领先者→早期大众→晚期大众)。对晚期大众而言,关键是信任感和体验与自身驾驶方式一致。VLA会先确保核心技术能力(如倒车轨迹规划正确),再整合工程能力和产品体验,目前是第一个版本,后续会加快迭代,最终能做到实用。

问题13:比如在园区里远程召唤过来的功能,当车还不在视野里的时候特别希望能看到这个车周围的影像,这个功能我们会不会做?

郎咸朋:该功能已实现,在手机上可查看车周围的影像。

问题14:之前试驾i8的时候,当时还是端到端+VLM的版本。我把手挡在左边A柱的摄像头上或我闭着眼睛,它好长时间都没有提示让我去观察路况,这是不是太宽松了?

郎咸朋:当时的DMS(驾驶员监控系统)是中间版本,试驾活动时做了调整(因之前觉得太敏感),那几天处于优化过程中。

问题15:今天的MEGA巴士是后台有人可以操作那个车,这个只是针对这种体验而来的对吧?

郎咸朋:如非必要不会介入,展示的是为后续更高级别自动驾驶积累的能力(包括成片区域仿真能力),属于研发和预研阶段的能力积累。

问题16:以后比如这些功能真的法规落地可以用了,后台也会有人在看着吗?

郎咸朋:国家法规允许后,不会用大量人力,会用AI接管。目前展示中后台有人是为了保护和方便理解,后续会推进AI接管。

问题17:请教两个问题。今天体验的时候没有机会穿过园区的大门。第一个问题,VLA上车以后,行车、泊车和AEB三个模块是不是都在一体训练了?第二个问题,特斯拉6月底到7月上旬一系列的动作关注度都比较高,想听一下评价,你们看特斯拉目前做的Robotaxi、FSD、Grok4等,这一系列动作对咱们驾驶这块有什么可以参考的?或者换个角度说,理想现在正在做的努力,跟特斯拉有什么差别,或者有哪些相同的地方?

詹锟:

第一个问题:VLA推送时,行车、泊车、AEB已一体训练,当前版本均包含这些模块。

第二个问题:理想关注特斯拉进展,有北美调研团队,认为其Robotaxi路线需更谨慎和细致研发。理想目标是通过技术迭代实现全场景自动驾驶,会借鉴特斯拉在远程接管、路线采集等方面的探索。双方技术栈均瞄向高级别自动驾驶,但理想更注重逐步迭代和全场景能力积累。

问题18:刚才郎博说一年内能实现,从技术能力上讲,是不是一年内实现L4?

郎咸朋:技术上希望如此,但目前技术先进性和差异度未充分体现,易被认为宣传不实。VLA架构与人类思维相似,最可能实现L4;正与国家相关机构讨论L4政策,深度参与法规建设;内部目标是提供安全的辅助驾驶,并探索更高可实施性,VLA迭代速度快。去年端到端发展迅速,VLA会更快(因摒弃人工测试,依赖无人仿真)。今年年底目标是MPI达到400-500公里(目前为百公里量级),明年达千公里量级。

问题19:咱们说“我们要成为更好的家庭司机”,其实每个人对司机的要求和驾驶感受不一样,有的需要激进一点,有的需要稳妥一点,甚至同样的人也有不一样的需要。今天我们体验到的是在这个路段上开快一点,后续是否有能力做到让它全程开快一点?

郎咸朋:能。未来会提供多种驾驶风格,并非预设,而是根据用户使用偏好调整(如不同路段速度适配),通过强化学习实现。将来会在端侧做强化学习,在用户车上训练专属模型,让车的驾驶风格越来越像用户。

问题20:是否可以理解成这个能力是VLA或理想的技术路线专属的?和其他的友商路线比起来,从产品体验上看,这可以成为一个差异化的地方吗?

郎咸朋:可以。VLA基于强化学习实现该能力,每家友商路线不同,理想的VLA架构可支撑这些产品思路,形成差异化。

问题21:刚才说VLA是很符合人类驾驶逻辑的,但人类还有一个逻辑“有下意识”,突然有东西闯入或侵入的时候,下意识会以安全为主,比如先刹停。像前两天有媒体做了测试,我们看到只要这个策略是保守的,它就可以通过它刹停。我们刚才一直在讨论时延的问题,时延再低也有时延,这个安全兜底的问题是怎么解决的?除了VLA,有没有其他的机制?

湛逸飞:AEB功能会一直保持,理想AEB帧率高,在极端场景下(包括人驾和功能开启状态)可做最后的安全兜底,直接使用感知结果。

问题22:如果车开出来就像自己的话,那驾驶员不同时怎么切换?

郎咸朋:上车时通过FaceID切换驾驶风格。

自动驾驶之心

论文辅导来啦

自驾交流群来啦!

自动驾驶之心创建了近百个技术交流群,涉及大模型、VLA、端到端、数据闭环、自动标注、BEV、Occupancy、多模态融合感知、传感器标定、3DGS、世界模型、在线地图、轨迹预测、规划控制等方向!欢迎添加小助理微信邀请进群。

知识星球交流社区

近4000人的交流社区,近300+自动驾驶公司与科研结构加入!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎加入。

独家专业课程


端到端自动驾驶大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频

学习官网:www.zdjszx.com

### 技术原理 VLA(Vision-Language-Action)大模型是一种整合视觉(Vision)、语言(Language)和动作(Action)的多模态模型。它通过将视觉感知、语言理解和动作执行结合在一起,实现对复杂任务的端到端控制。这种模型通常需要大量的多模态数据进行训练,包括视觉输入、语言指令以及相应的动作输出。VLA模型的核心在于其能够将不同模态的信息进行融合,并生成相应的动作指令,从而实现从感知到行动的无缝衔接 [^1]。 然而,VLA模型存在数据采集难度大和长期规划与状态跟踪能力欠缺等问题。为了解决这些问题,行业公司提出了双系统架构技术路径,将原本的长链条端到端模型VLA模型拆分为VLM(Vision-Language Model)和动作执行两个模型。分层模型利用大语言模型的强大规划与推理能力,构造出类似人类“快慢脑”的结构,其中快脑为系统1,专注于操作,负责实时执行和调整行动;慢脑为系统2,专注慢推理规划,负责制定战略 [^1]。 ### 应用场景 VLA大模型的应用场景非常广泛,尤其是在需要多模态交互和复杂决策的领域。以下是一些具体的应用场景: 1. **机器人控制**:VLA模型在机器人领域有着广泛的应用,特别是在通用人形控制方面。例如,Helix 是一种用于通用人形控制的VLA模型,它通过一个统一的模型就能在各种任务中表现出色。这表明VLA模型在机器人控制中的潜力,尤其是在需要高度自主性和适应性的环境中 [^3]。 2. **自动驾驶**:小鹏在最近发布的G7已经明确表示采用VLA,尽管具体实现形式尚不清楚,但通过其发布的720亿(72B)云端算法架构图,可以看出这是一个云端VLA的架构。未来估计可以蒸馏成一个车端VLA模型放到车端芯片上,这表明VLA模型在自动驾驶领域的应用前景 [^4]。 3. **人机协作**:VLA模型正推动AI从"感知智能"向"行动智能"跃迁,其发展将重塑人机协作范式。通过VLA模型,机器可以更好地理解人类的意图,并执行相应的动作,从而实现更高效的人机协作 [^2]。 4. **虚拟助手**:VLA模型可以用于开发更智能的虚拟助手,这些助手不仅能够理解和生成语言,还能够通过视觉感知和动作执行来完成复杂的任务。例如,虚拟助手可以通过视觉识别用户的环境,并根据用户的指令执行相应的动作 [^1]。 5. **教育和娱乐**:VLA模型在教育和娱乐领域也有着广泛的应用。例如,通过VLA模型,虚拟角色可以更好地理解和响应用户的指令,提供更加沉浸式的体验。此外,VLA模型还可以用于开发智能玩具和教育工具,帮助儿童更好地学习和成长 。 ### 代码示例 以下是一个简单的VLA模型的伪代码示例,展示了如何将视觉、语言和动作模态进行融合: ```python class VLA_Model: def __init__(self): self.vision_model = VisionModel() self.language_model = LanguageModel() self.action_model = ActionModel() def forward(self, visual_input, language_input): vision_features = self.vision_model(visual_input) language_features = self.language_model(language_input) combined_features = torch.cat((vision_features, language_features), dim=1) action_output = self.action_model(combined_features) return action_output ``` 在这个示例中,`VLA_Model`类包含了三个子模型:`VisionModel`、`LanguageModel`和`ActionModel`。`VisionModel`负责处理视觉输入,`LanguageModel`负责处理语言输入,`ActionModel`负责生成动作输出。通过将视觉和语言特征进行拼接,并输入到`ActionModel`中,最终生成相应的动作输出。 ###
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值