关于理想VLA未来发展的一些信息

理想VLA强化闭环与自动驾驶布局

转载于 2025-11-10 08:03:36 发布 · 105 阅读

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247685239&idx=4&sn=44ec302b4a86909f998df0b9cd60ff63&chksm=cf2c54880bc9d4f0e5f78b50a4e0031db163cc3db44bdd07db29888df4a3f2406dab922f8274&scene=126&sessionid=0

作者 | 理想TOP2 来源 | 郎咸鹏给理想VLA新画的4个饼以及值得留意的5点

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近30个方向学习路线

>>自动驾驶前沿信息获取→自动驾驶之心知识星球

本文只做学术分享，如有侵权，联系删文

关于理想VLA的未来，理想自动驾驶负责人郎咸朋给了4个饼：

短期：现在致力于打造训练的强化闭环，2025年底应该能搭出来，在2025年底2026年初，能看到一些非常好的表现，用户会觉得车真的“活”了，像一个每天在成长的人。

中期：加强强化闭环后，可能会在中国市场超特斯拉，锚点是特斯拉在中国没有理想拥有的便利环境做闭环迭代。

2年周期：VLA加强化学习不只是技术变革，是业务大变革，落地后会成为企业真正的护城河——不是模型、数据或芯片，而是整个业务流程。这个能力建设不会很快，需要一两年迭代。一旦迭代完毕，比如我们 2025 年开始做 VLA 强化闭环，2025、2026 两年做好，到 2027 年就全都变了。

远期：VLA可以实现L4，但以后一定还有新技术。

备注：郎咸鹏提到了因为怕剐蹭撞车，做了很多安全限制。其实是在说此时此刻的版本为了真实安全性（非安心感）与潜在的舆情风险，加了规则。目前的版本没有实现训练的强化闭环。

强化闭环出来后，不用用户说，系统自己就知道哪有问题。今天这个用户接管，明天那个用户开车顿挫、急刹车，系统会自动收集问题，数据回传后自动强化训练，迭代完就上线。

TOP2评论：一些人喜欢思考琢磨护城河话题，思考方向一般是具备XX点，其他家无法追上。郎的叙事里在一定程度迎合这种偏好。大的趋势来看，基本确定不会只有一两家掌握自动驾驶，如果认为广义的自动驾驶运营商（包含主机厂）会有好几家的话，那么自然以自己有了XXX，才具备自动驾驶能力的叙事都无法构成严格意义上的护城河。不过可以说这些点是将来最后只有少数几家可以活下来的主体的立足点，活不下来的主体是在这些点与其他好几个点上综合不行。

郎咸朋目前对VLA的2个倾向性看法：

开车需要具备的智能程度是比较低的。
业务流程改革完成后，经过1-2年时间，可以更清楚的知道车端算力需求与模型参数量需求，郎倾向于不会要求太大。

备注：郎给的锚点是车端1000或2000tops，云端32B，并认为320B蒸馏成4B很不合适。

TOP2评论：同意第一个点，就目前LLM展现出来的智能水平而言，应付自动驾驶已经绰绰有余了，主要就是解决一个时延的问题。

第二个点不完全同意（强调一下，是不完全同意，不是不同意），郎的叙事里有一种算力/参数量不是越大越好的倾向。一方面确实不是严格意义上的越大越好，大到某一个程度后就会遇到瓶颈期。另一方面TOP2比较倾向认为，在遇到明显瓶颈期前，整体确实是越大越好，郎的叙事里有一点在还没遇到瓶颈时就预期没必要很大算力（不一定是郎的真实意思，有可能是TOP2的错误理解，但与晚点的对话里呈现出来有点这个意思）。

持有此观点的核心锚点是同意the bitter lesson的核心思想：在人工智能领域，过去70年，那些充分利用海量计算能力的、通用的元方法（如搜索和学习），最终总是胜过那些依赖人类专家知识和领域洞察来设计的复杂算法。真正的突破来自于那些能随着算力提升而性能不断增强的通用方法。

DeepSeek在浅层上不符合the bitter lesson的内核（用了更好的方法来降低对算力的需求），其实深层上是符合the lesson的内核的。（这也是为啥可能确实实现同样能力自动驾驶上，未必需要特斯拉那么强的算力需求，在算力维度上可以一定程度将特斯拉类比成OpenAI，理想类比成DeepSeek，任意两个事物不太可能所有细节都可以类比，很多人特别容易揪着另一个维度不能类比来说这个维度的类比是错误的）

强化学习之父理查德.萨顿在写the bitter lesson的时候，苦涩的锚点是AI研究者将自己对世界的理解（比如，下棋时控制中心很重要或英语的语法结构是SVO）硬编码到算法中，这些先验知识在短期内有效，长期无效。

DeepSeek用MoE/MLA等方法内核是通用的元方法。即虽然DeepSeek对算力的需求更小了，但实际上方法本身可以通过增加算力来提升性能。

在自动驾驶领域中，前进方向也是符合the bitter lesson的，一切广义上尝试将人类对世界的理解硬编码到算法中的，大概率日后都会被淘汰。

关于李想：

2025年2月底，李想首先提出要加快交付VLA，基于模仿学习本质没有人类智能。
李想和校招生平均每个月有一次沟通
郎咸鹏和李想有默契、信任基础，郎在不同场合分享过蛮多细节，大的逻辑是一开始没啥资源，李想画饼之后会大规模投入，并且和郎讲道理为什么要这样，郎信了，后面还有很多并肩作战，互相支持一类的。

TOP2备注：这个内核其实就是李想多次说的关注人不关注事。团队内部之间是否有双向信任的基础，这也是理想虽然客观上价值观有所稀释，但可以经过时间调整扭过来的基础。

对智驾部门的调整的叙事主基调是智驾团队护城河是业务体系，不是某一个人，特斯拉自动驾驶部门人员从头到尾都走了一遍。新的调正大思路是面向AI的组织，自驾部门现在11个二级部门，都是做过业务，非纯管理出生。智驾核心管理者要从内部培养，Research/算法研究可以从外面找。

备注：原模型算法团队拆分为基础模型部、VLA 模型部和模型工程部；原量产研发团队拆分为量产交付部、软件研发部和主动安全部；原数据闭环团队拆分为数据平台部和数据标注部；原有的规划管理部、AI 评测与运营部保留，并新增创新业务部

取消封闭开发一是因为不是追赶者后，封闭开发收益降低，二是体现员工关怀。

TOP2备注：此前理想大量部门反馈认为公司缺少员工关怀，从种种细节来看，高层可能形成阶段性共识认为应该提高员工关怀。

郎咸鹏自述第一代骨干是王轶伦、关书伟、贾鹏，这三个人跟我一起做了 2021 年的自研。完成从 0 到 1 后，王轶伦和关书伟走了。轶伦去做量化，书伟辗转了好几个地方。第二代骨干是贾鹏、王佳佳和我。第二代一直走到端到端时，夏中谱加入团队。现在是第三代，新班子以詹锟、湛逸飞为主，加上后面 9 个二级部门负责人。

TOP2评论：理想智驾部门组织具体如何调整将始终是个次要矛盾，理想智驾发展主要矛盾是全球AI产业发展阶段/理想各类生产要素匹配度/李想（其实就是天时地利人和），李想之于理想辅助驾驶作用可以高度类比马斯克之于特斯拉辅助驾驶。（3个核心作用 1.做大资源 2.保证资源持续投入 3.具备理解AI底层原理与直接参与公司AI技术讨论的能力的前提下，对公司长期发展方向与技术路线下关键think different判断并执行。）

对友商一些点的评价以及对友商评价VLA的评价：

非常关注FSD V14的进展，后续理想团队也会在美国本地做实车体验。 Ashok在ICCV 2025上讲的，与理想VLA在理念上高度一致。
任少卿说的世界模型，跟我们 VLA 模型是一个 Level 的，他说的还是模型本身。我们说的世界模型，则是强化训练闭环的重要基础。而华为的那个 W Engine，有点像我们说的世界模型。”
回应博世吴永桥不看好VLA，指出博世不自研基座模型，也几乎没做过大模型相关工作。博世自己数据量不大。认为可以通过强化学习，超级对齐来解决模型幻觉。
华为靳总说的也同理。我们已经做完端到端，过程中发现 corner case 的数据收集，最重要的是数据分布和数据质量。现在就是 corner case 分布不均衡，收集数据困难，确实挑战很大。即使有很多数据，也不可能穷尽世界上所有场景。必须让系统有人类这种思维推理能力才可以，简单泛化不行。

他们反对 VLA，恰恰说明 VLA 是正确的。出于市场竞争和技术演进的考虑，在 VLA 和端到端上线初期，我们首先要保证它们在安全性的维度上做得不差，之后再去逐步提高上限。

TOP2评论：没看懂他们反对 VLA，恰恰说明 VLA 是正确的逻辑链是什么。

其他可以留意的散落点：

不要和年轻人讲经验，很难说服他们，他们可能都觉得比你聪明、比你厉害。最关键的是把公司战略和目标讲透，让他们明白我们到底要去哪。
此前理想智驾团队超高开发强度来自郎咸鹏自己定的目标。
2023年底2024年初开始有要做第一的想法了，认为如果做得和华为一样好，大家还是会觉得华为好，得比华为做得明显好。
确保每个季度为用户带来实质性功能升级与体验提升。
现在看起来，推理算力训练算力各一半比较合理。2024年理想云端算力8 EFLOPS，差不多10亿人民币数量级。目前正在做42B云端模型，希望云端模型参数量别太大。
理想自研自动驾驶芯片如果一颗效果不好，就用两颗。
2027年有可能大家就不用MPI指标了。（没说会用啥，这里大体是在讲之后接管率都低，大家不会怎么在意这件事了）
2023年理想公司主基调是扩招，郎自述自己的认知里不需要那么多人，比特斯拉团队多一些就好。
郎的50%精力在管理上，主要是组织、人员、资源等短期日常事务；30% 在中长期的战略和商业规划；20% 在技术和业务进展上。
LSA（Li Strategy Analysis，理想汽车战略分析法）抽象出来是认知决定战略，战略决定业务，业务决定组织和资源。
郎自述2019年的转型是最痛苦的，把整个人撕裂开来，再充足完成一次彻底的迭代。
海外预研部门，一方面交付产品，另一方面预研将来 L4 怎么在海外落地和推广。技术上都一样，但是商业化落地、产品设计和研发，跟国内有区别。

自动驾驶之心

论文辅导来啦

自驾交流群来啦！

自动驾驶之心创建了近百个技术交流群，涉及大模型、VLA、端到端、数据闭环、自动标注、BEV、Occupancy、多模态融合感知、传感器标定、3DGS、世界模型、在线地图、轨迹预测、规划控制等方向！欢迎添加小助理微信邀请进群。

知识星球交流社区

近4000人的交流社区，近300+自动驾驶公司与科研结构加入！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型，更有行业动态和岗位发布！欢迎加入。

独家专业课程

端到端自动驾驶、大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频

学习官网：www.zdjszx.com