关于理想VLA未来发展的一些信息

理想VLA强化闭环与自动驾驶布局

作者 | 理想TOP2 来源 |  郎咸鹏给理想VLA新画的4个饼以及值得留意的5点

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近30个方向学习路线

>>自动驾驶前沿信息获取自动驾驶之心知识星球

本文只做学术分享,如有侵权,联系删文

关于理想VLA的未来,理想自动驾驶负责人郎咸朋给了4个饼:

短期:现在致力于打造训练的强化闭环,2025年底应该能搭出来,在2025年底2026年初,能看到一些非常好的表现,用户会觉得车真的“活”了,像一个每天在成长的人。

中期:加强强化闭环后,可能会在中国市场超特斯拉,锚点是特斯拉在中国没有理想拥有的便利环境做闭环迭代。

2年周期:VLA加强化学习不只是技术变革,是业务大变革,落地后会成为企业真正的护城河——不是模型、数据或芯片,而是整个业务流程。这个能力建设不会很快,需要一两年迭代。一旦迭代完毕,比如我们 2025 年开始做 VLA 强化闭环,2025、2026 两年做好,到 2027 年就全都变了。

远期:VLA可以实现L4,但以后一定还有新技术。

备注:郎咸鹏提到了因为怕剐蹭撞车,做了很多安全限制。其实是在说此时此刻的版本为了真实安全性(非安心感)与潜在的舆情风险,加了规则。目前的版本没有实现训练的强化闭环。

强化闭环出来后,不用用户说,系统自己就知道哪有问题。今天这个用户接管,明天那个用户开车顿挫、急刹车,系统会自动收集问题,数据回传后自动强化训练,迭代完就上线。

TOP2评论:一些人喜欢思考琢磨护城河话题,思考方向一般是具备XX点,其他家无法追上。郎的叙事里在一定程度迎合这种偏好。大的趋势来看,基本确定不会只有一两家掌握自动驾驶,如果认为广义的自动驾驶运营商(包含主机厂)会有好几家的话,那么自然以自己有了XXX,才具备自动驾驶能力的叙事都无法构成严格意义上的护城河。不过可以说这些点是将来最后只有少数几家可以活下来的主体的立足点,活不下来的主体是在这些点与其他好几个点上综合不行。

郎咸朋目前对VLA的2个倾向性看法:

  1. 开车需要具备的智能程度是比较低的。

  2. 业务流程改革完成后,经过1-2年时间,可以更清楚的知道车端算力需求与模型参数量需求,郎倾向于不会要求太大。

备注:郎给的锚点是车端1000或2000tops,云端32B,并认为320B蒸馏成4B很不合适。

TOP2评论:同意第一个点,就目前LLM展现出来的智能水平而言,应付自动驾驶已经绰绰有余了,主要就是解决一个时延的问题。

第二个点不完全同意(强调一下,是不完全同意,不是不同意),郎的叙事里有一种算力/参数量不是越大越好的倾向。一方面确实不是严格意义上的越大越好,大到某一个程度后就会遇到瓶颈期。另一方面TOP2比较倾向认为,在遇到明显瓶颈期前,整体确实是越大越好,郎的叙事里有一点在还没遇到瓶颈时就预期没必要很大算力(不一定是郎的真实意思,有可能是TOP2的错误理解,但与晚点的对话里呈现出来有点这个意思)。

持有此观点的核心锚点是同意the bitter lesson的核心思想:在人工智能领域,过去70年,那些充分利用海量计算能力的、通用的元方法(如搜索和学习),最终总是胜过那些依赖人类专家知识和领域洞察来设计的复杂算法。真正的突破来自于那些能随着算力提升而性能不断增强的通用方法。

DeepSeek在浅层上不符合the bitter lesson的内核(用了更好的方法来降低对算力的需求),其实深层上是符合the lesson的内核的。(这也是为啥可能确实实现同样能力自动驾驶上,未必需要特斯拉那么强的算力需求,在算力维度上可以一定程度将特斯拉类比成OpenAI,理想类比成DeepSeek,任意两个事物不太可能所有细节都可以类比,很多人特别容易揪着另一个维度不能类比来说这个维度的类比是错误的)

强化学习之父理查德.萨顿在写the bitter lesson的时候,苦涩的锚点是AI研究者将自己对世界的理解(比如,下棋时控制中心很重要或英语的语法结构是SVO)硬编码到算法中,这些先验知识在短期内有效,长期无效。

DeepSeek用MoE/MLA等方法内核是通用的元方法。即虽然DeepSeek对算力的需求更小了,但实际上方法本身可以通过增加算力来提升性能。

在自动驾驶领域中,前进方向也是符合the bitter lesson的,一切广义上尝试将人类对世界的理解硬编码到算法中的,大概率日后都会被淘汰。

关于李想:

  1. 2025年2月底,李想首先提出要加快交付VLA,基于模仿学习本质没有人类智能。

  2. 李想和校招生平均每个月有一次沟通

  3. 郎咸鹏和李想有默契、信任基础,郎在不同场合分享过蛮多细节,大的逻辑是一开始没啥资源,李想画饼之后会大规模投入,并且和郎讲道理为什么要这样,郎信了,后面还有很多并肩作战,互相支持一类的。

TOP2备注:这个内核其实就是李想多次说的关注人不关注事。团队内部之间是否有双向信任的基础,这也是理想虽然客观上价值观有所稀释,但可以经过时间调整扭过来的基础。

对智驾部门的调整的叙事主基调是智驾团队护城河是业务体系,不是某一个人,特斯拉自动驾驶部门人员从头到尾都走了一遍。 新的调正大思路是面向AI的组织,自驾部门现在11个二级部门,都是做过业务,非纯管理出生。智驾核心管理者要从内部培养,Research/算法研究可以从外面找。

备注:原模型算法团队拆分为基础模型部、VLA 模型部和模型工程部;原量产研发团队拆分为量产交付部、软件研发部和主动安全部;原数据闭环团队拆分为数据平台部和数据标注部;原有的规划管理部、AI 评测与运营部保留,并新增创新业务部

取消封闭开发一是因为不是追赶者后,封闭开发收益降低,二是体现员工关怀。

TOP2备注:此前理想大量部门反馈认为公司缺少员工关怀,从种种细节来看,高层可能形成阶段性共识认为应该提高员工关怀。

郎咸鹏自述第一代骨干是王轶伦、关书伟、贾鹏,这三个人跟我一起做了 2021 年的自研。完成从 0 到 1 后,王轶伦和关书伟走了。轶伦去做量化,书伟辗转了好几个地方。第二代骨干是贾鹏、王佳佳和我。第二代一直走到端到端时,夏中谱加入团队。现在是第三代,新班子以詹锟、湛逸飞为主,加上后面 9 个二级部门负责人。

TOP2评论:理想智驾部门组织具体如何调整将始终是个次要矛盾,理想智驾发展主要矛盾是全球AI产业发展阶段/理想各类生产要素匹配度/李想(其实就是天时地利人和),李想之于理想辅助驾驶作用可以高度类比马斯克之于特斯拉辅助驾驶。(3个核心作用 1.做大资源 2.保证资源持续投入 3.具备理解AI底层原理与直接参与公司AI技术讨论的能力的前提下,对公司长期发展方向与技术路线下关键think different判断并执行。)

对友商一些点的评价以及对友商评价VLA的评价:

  1. 非常关注FSD V14的进展,后续理想团队也会在美国本地做实车体验。 Ashok在ICCV 2025上讲的,与理想VLA在理念上高度一致。

  2. 任少卿说的世界模型,跟我们 VLA 模型是一个 Level 的,他说的还是模型本身。我们说的世界模型,则是强化训练闭环的重要基础。而华为的那个 W Engine,有点像我们说的世界模型。”

  3. 回应博世吴永桥不看好VLA,指出博世不自研基座模型,也几乎没做过大模型相关工作。博世自己数据量不大。认为可以通过强化学习,超级对齐来解决模型幻觉。

  4. 华为靳总说的也同理。我们已经做完端到端,过程中发现 corner case 的数据收集,最重要的是数据分布和数据质量。现在就是 corner case 分布不均衡,收集数据困难,确实挑战很大。即使有很多数据,也不可能穷尽世界上所有场景。必须让系统有人类这种思维推理能力才可以,简单泛化不行。

他们反对 VLA,恰恰说明 VLA 是正确的。出于市场竞争和技术演进的考虑,在 VLA 和端到端上线初期,我们首先要保证它们在安全性的维度上做得不差,之后再去逐步提高上限。

TOP2评论:没看懂他们反对 VLA,恰恰说明 VLA 是正确的逻辑链是什么。

其他可以留意的散落点:

  1. 不要和年轻人讲经验,很难说服他们,他们可能都觉得比你聪明、比你厉害。最关键的是把公司战略和目标讲透,让他们明白我们到底要去哪。

  2. 此前理想智驾团队超高开发强度来自郎咸鹏自己定的目标。

  3. 2023年底2024年初开始有要做第一的想法了,认为如果做得和华为一样好,大家还是会觉得华为好,得比华为做得明显好。

  4. 确保每个季度为用户带来实质性功能升级与体验提升。

  5. 现在看起来,推理算力训练算力各一半比较合理。2024年理想云端算力8 EFLOPS,差不多10亿人民币数量级。目前正在做42B云端模型,希望云端模型参数量别太大。

  6. 理想自研自动驾驶芯片如果一颗效果不好,就用两颗。

  7. 2027年有可能大家就不用MPI指标了。(没说会用啥,这里大体是在讲之后接管率都低,大家不会怎么在意这件事了)

  8. 2023年理想公司主基调是扩招,郎自述自己的认知里不需要那么多人,比特斯拉团队多一些就好。

  9. 郎的50%精力在管理上,主要是组织、人员、资源等短期日常事务;30% 在中长期的战略和商业规划;20% 在技术和业务进展上。

  10. LSA(Li Strategy Analysis,理想汽车战略分析法)抽象出来是认知决定战略,战略决定业务,业务决定组织和资源。

  11. 郎自述2019年的转型是最痛苦的,把整个人撕裂开来,再充足完成一次彻底的迭代。

  12. 海外预研部门,一方面交付产品,另一方面预研将来 L4 怎么在海外落地和推广。技术上都一样,但是商业化落地、产品设计和研发,跟国内有区别。

自动驾驶之心

论文辅导来啦

自驾交流群来啦!

自动驾驶之心创建了近百个技术交流群,涉及大模型、VLA、端到端、数据闭环、自动标注、BEV、Occupancy、多模态融合感知、传感器标定、3DGS、世界模型、在线地图、轨迹预测、规划控制等方向!欢迎添加小助理微信邀请进群。

知识星球交流社区

近4000人的交流社区,近300+自动驾驶公司与科研结构加入!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎加入。

独家专业课程


端到端自动驾驶大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频

学习官网:www.zdjszx.com

内容概要:本文介绍了一个基于Matlab的综合能源系统优化调度仿真资源,重点实现了含光热电站、有机朗肯循环(ORC)和电含光热电站、有机有机朗肯循环、P2G的综合能源优化调度(Matlab代码实现)转气(P2G)技术的冷、热、电多能互补系统的优化调度模型。该模型充分考虑多种能源形式的协同转换与利用,通过Matlab代码构建系统架构、设定约束条件并求解优化目标,旨在提升综合能源系统的运行效率与经济性,同时兼顾灵活性供需不确定性下的储能优化配置问题。文中还提到了相关仿真技术支持,如YALMIP工具包的应用,适用于复杂能源系统的建模与求解。; 适合人群:具备一定Matlab编程基础和能源系统背景知识的科研人员、研究生及工程技术人员,尤其适合从事综合能源系统、可再生能源利用、电力系统优化等方向的研究者。; 使用场景及目标:①研究含光热、ORC和P2G的多能系统协调调度机制;②开展考虑不确定性的储能优化配置与经济调度仿真;③学习Matlab在能源系统优化中的建模与求解方法,复现高水平论文(如EI期刊)中的算法案例。; 阅读建议:建议读者结合文档提供的网盘资源,下载完整代码和案例文件,按照目录顺序逐步学习,重点关注模型构建逻辑、约束设置与求解器调用方式,并通过修改参数进行仿真实验,加深对综合能源系统优化调度的理解。
<think> 嗯,用户想了解自动驾驶领域的VLA信息,正好我有三篇相关引用材料。从引用[1]看,VLA是视觉-语言-行动模型的缩写,属于自动驾驶前沿范式,能融合感知、理解和决策。引用[3]提到理想汽车刚发布的MindVLA架构,这个案例很新也很具体,应该重点介绍。 用户可能更关注技术原理而非商业新闻,需要避免直接复述厂商宣传。引用[2]指出数据集不足的瓶颈问题,这个技术痛点值得展开说明。考虑到用户是技术背景,可以适当加入架构图描述,但要注意所有公式必须用$...$格式,比如描述模型结构时可能需要用$\text{LLM} \times \text{Vision Encoder}$这样的表示。 上次回答时用户没追问,这次可以主动生成些深入问题。比如技术瓶颈那块,除了数据集问题,模型可解释性也是个好方向。优化方法方面,MoE架构和3D高斯都值得单独提问,用户可能是工程师想了解落地方案。 要注意把厂商案例(MindVLA)放在技术体系里说明,避免像广告。最后检查所有术语:VLA全称在首次出现时必须完整拼写,视觉感知等专业词汇保持原文大小写。生成问题时特意加入"与端到端方案区别"这个对比维度,帮助用户建立技术坐标系。 </think> 以下是自动驾驶领域**视觉-语言-行动模型(VLA)** 的系统性介绍与技术解析: --- ### **一、VLA的核心定义** VLA(**Visual-Language-Action**)是一种融合**多模态感知**(视觉)、**语言理解**(指令/推理)与**行动决策**(驾驶动作)的端到端自动驾驶模型架构。其目标是通过语言交互实现**可解释的智能驾驶决策**,例如理解“避让行人”或“紧急变道”的自然语言指令并解释行为逻辑[^1][^3]。 --- ### **二、核心技术框架** 1. **多模态感知融合** - **视觉输入**:摄像头/激光雷达数据 → 提取3D场景特征(如理想MindVLA采用的**3D高斯散射技术**增强空间理解)[^3]。 - **语言嵌入**:将导航指令(“左转进入辅路”)或交通规则(“礼让救护车”)编码为语义向量,公式表达: $$ \text{Language Embedding} = \Phi_{\text{LLM}}(\text{Instruction}) $$ 其中 $\Phi_{\text{LLM}}$ 为大型语言模型编码器[^1]。 2. **联合推理与决策** - 通过**跨模态对齐**(Cross-Modal Attention)关联视觉特征与语言语义,例如识别“施工路锥”并关联指令“绕行障碍”[^1]。 - 输出驾驶动作(转向/刹车等)的概率分布: $$ \pi(a_t | s_t) = \Psi_{\text{Policy}}( \text{Vision} \oplus \text{Language} ) $$ $\Psi_{\text{Policy}}$ 为基于扩散模型(Diffusion Model)或MoE架构的决策网络[^3]。 3. **可解释性机制** VLA可生成决策的自然语言解释(如“减速因检测到横向电动车”),实现**行为透明化**,提升人车信任[^1]。 --- ### **三、关键挑战与突破** 1. **数据瓶颈** - **问题**:缺乏大规模**视觉-语言-动作对齐数据集**,人工标注成本极高[^2]。 - **解决方向**: - 合成数据生成(仿真场景+语言指令自动标注) - 自监督学习(从行车视频中提炼隐含语义关系) 2. **实时性优化** - 理想MindVLA采用**混合专家模型(MoE)** ,动态激活子网络降低计算负载[^3]。 - 模型压缩技术(如知识蒸馏)适配车规级芯片算力。 --- ### **四、应用案例:理想MindVLA** - **3D场景重建**:通过3D高斯建模实现厘米级障碍物定位。 - **逻辑链推理**:解析复杂场景(如“施工路段+临时改道”)并规划安全轨迹。 - **量产部署**:全球首个车规级VLA架构,支持OTA持续进化[^3]。 --- ### **VLA与传统方案对比** | **能力** | 传统感知模型 | VLA模型 | |-------------------|------------------|-----------------------| | 自然语言指令理解 | ❌ 不支持 | ✅ 可理解复杂指令 | | 决策可解释性 | 黑盒决策 | ✅ 语言解释逻辑 | | 长尾场景适应性 | 依赖规则库 | ✅ 语义推理泛化能力强 | | 多模态交互 | 单一视觉/雷达 | ✅ 视觉+语言协同 | ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值