认知驱动下的小米智驾，从端到端、世界模型再到VLA......

转载于 2025-11-24 08:01:58 发布 · 21 阅读

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247686583&idx=1&sn=44b081589b17498ba06dab5aae5b85b0&chksm=cf0dcccf039818c91d8e99168b1dbb1de167814d870f89c54d3f19d1a3150fc3e136f59d2c5d&scene=126&sessionid=0

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近30个方向学习路线

周末学习了下小米汽车四位大佬接受flypig采访的视频，总结下核心点分享给大家：

在小米智驾迈入认知驱动的上半部分，主要采访的是叶航军博士和陈光博士，叶航军博士是小米智能驾驶的业务负责人，陈光博士负责端到端量产。上半部分聊到了几个点：

在智能驾驶的安全、舒适和效率三个维度上，如果一定要做取舍，安全永远是第一位，当然智驾能力的提升三个维度上都会有提升；
目前小米汽车泊车功能的渗透率最高，用户使用最多，城区的智驾投入最大且提升空间也最大，同时也在持续不断的迭代能力，AEB和AES的功能在采访期间聊了很多，可以感觉到小米汽车在这块下了很多功夫；
11月21日，小米汽车在广州车展正式发布Xiaomi HAD增强版，该版本将后续通过小米汽车OTA冬季大版本Xiaomi HyperOS 1.11系列陆续推送给用户；
1.11主要是世界模型和强化学习的引入，目的是为了解决非常极端corner case的场景，世界模型是重建+生成的结合，采访里面也给了几个demo，比如下图的模拟两车碰撞；

在这期间，叶航军博士聊了小米智驾近期的发展历程：

24.3 高精地图版本的高速NOA → 24.5左右的城区NOA → 24.10 迈向的轻图和无图版本 → 25.2 月的 300W clips端到端版本 → 25.7月的 1000W clips版本，以及近期推出的世界模型版本。

智能驾驶的三个阶段，从1.0的规则驱动到2.0的数据驱动以及3.0的认知驱动。而认知驱动的核心是VLA，柱哥个人的看法，小米汽车下一阶段的量产目标是VLA上车。同时两位博士聊到：VLA不是端到端的升级，而是认知驱动下的新版本，叶航军博士认为端到端没有办法对复杂的逻辑和长时序的场景理解做推理性的反应。

从上半个阶段的采访可以感觉到，小米对智驾的投入还是很大的，基建、算力、数据、模型、工程等等各个层面。叶航军博士肯定了小米智驾没有做跳代，而是一步一个脚印沿着1.0 2.0 3.0去扩展，也和前文中有图到无图，端到端、世界模型、VLA等等方案有关，主流的技术栈小米都有参与，今年也有很多论产出。

下面陈光博士重点聊了世界模型，有三大特性是世界模型必不可少的：

生成的多样性：重建的真实性，结合快速的新场景生成以及场景编辑（资产插入、改变自车/他车行为）；
多模态的输入和输出：输入可以是文字或视频，除了建模视觉重建，LiDAR重建也必不可少，并且要保证不同模态是自洽的；
交互的能力：柱哥理解这块聊的其实就是闭环，新引入的行为可以对下一时刻自车的行为产生影响；

总结来看，小米的世界模型更偏云端，没有直接参与车端的Action输出，更多是以数据生成、闭环仿真、强化学习的方式提升模型性能。

两位大佬基本上把小米智驾的核心点聊的七七八八，前几年的积累，近两年的量产路程，对世界模型和VLA的看法，以及对未来发展的一些展望。更多关于这次采访的分享和看法，柱哥也放到了自动驾驶之心知识星球，欢迎大家加入一起讨论~

下半场主要是采访陈龙博士和王乃岩博士，两位分别负责VLA和L3。柱哥分享几个印象深刻的点

陈龙聊VLA：端到端的本质是模仿学习，VLA直接把大模型的能力赋予自动驾驶，世界模型更像端到端plus，是利用模拟器或者利用未来的预测能力来加强端到端。VLA也可以和世界模型相融合，并且VLA可以学习人类高层次的知识（交通规则/价值观）；
陈龙老师和乃岩老师都明确一点：VLA的无损传递是相比端到端+VLM的最大提升；
小米大模型的发展路线：从LLM预训练，到VLM预训练再到具身预训练，后面再到自驾VLA，目前我们已经看到了MiMo、MiMo-vl和前两天刚推出的MiMo-Embodied，期待后续MoMo-VLA？

如果您也想和自动驾驶学术界或工业界的大佬交流，欢迎加入自动驾驶之心知识星球。目前星友面对面已经开展到了第四期，我们聊技术、聊趋势、聊变化。未来柱哥还会持续邀请学术界和工业界的同行和大家交流。欢迎加入自动驾驶之心知识星球，我们准备的大额的新人优惠......

扛内卷，一个足够有料的社区

对于很多想入门的同学来说，试错成本有点高。没时间和缺乏完整的体系是最大问题，这也容易导致行业壁垒越来越高，如果想要卷赢那就更加困难了。

所以我们联合了诸多学术界和工业界的大佬，共同打造了我们维护三年之久的『自动驾驶之心知识星球』！星球目前集视频 + 图文 + 学习路线 + 问答 + 求职交流为一体，是一个综合类的自驾社区，已经超过4000人了。我们期望未来2年内做到近万人的规模。给大家打造一个交流+技术分享的聚集地，是许多初学者和进阶的同学经常逛的地方。

如果你也想和我们一起推动自驾领域的进步，欢迎加入我们的社区团队，和我们一起推动！我们准备了大额优惠券给大家，欢迎微信扫码领取，还有少量～

社区内部还经常为大家解答各类实用问题：端到端如何入门？自动驾驶多模态大模型如何学习？自动驾驶VLA的学习路线。数据闭环4D标注的工程实践。快速解答，方便大家应用到项目中。

更有料的是：星球内部为大家梳理了近40+技术路线，无论你是咨询行业应用、还是要找最新的VLA benchmark、综述和学习入门路线，都能极大缩短检索时间。星球还为大家邀请了数十位自动驾驶领域嘉宾，都是活跃在一线产业界和工业界的大佬（经常出现的顶会和各类访谈中哦）。欢迎随时提问，他们将会为大家答疑解惑。除了上面的问题，我们还为大家梳理了很多其它的内容：

端到端自动驾驶如何入门？一段式/二段式量产中如何使用？
传统规划控制想转端到端VLA，求学习路线图！
自动驾驶多模态大模型预训练数据集有哪些？求自动驾驶VLA微调数据集？
多传感器融合现在还适合就业吗？
3DGS和闭环仿真如何结合？应用中需要考虑哪些元素？
世界模型是个啥？业内如何应用，研究还有切入点么？
业内哪家公司前景好一些，适合跳槽，都有什么岗位开放招聘？求星主内推~
博士入学，哪个方向容易出成果？
闭环强化学习如何入门？
端到端自动驾驶学习路线推荐。
......

我们会不定期和一线的学术界&工业界大佬畅聊自动驾驶发展趋势，探讨技术走向和量产痛点：

这是一个认真做内容的社区，一个培养未来领袖的地方。星球内部梳理了近40+自动驾驶技术方向，同时也有面向求职的问答梳理。

针对入门学习的同学，我们更是准备了全栈方向的学习课程，非常适合0基础的小白。

我们还和多家自动驾驶公司建立了岗位内推机制，欢迎大家随时艾特我们。第一时间将您的简历送到心仪公司的手上。

针对入门者，我们整理了完备的小白入门技术栈和全栈路线图。

已经从事相关研究的同学，我们也给大家提供了很多有价值的产业体系和项目方案。

欢迎和我们一起打造完整的自驾生态。

国内首个自驾全栈社区：自动驾驶之心知识星球

社区创建的出发点是给大家提供一个自动驾驶相关的技术交流平台，交流学术和工程上的问题。星球内部的成员来自国内外知名高校实验室、自动驾驶相关的头部公司，其中高校和科研机构包括但不限于：上海交大、北京大学、CMU、清华大学、西湖大学、上海人工智能实验室、港科大、港大、南洋理工、新加坡国立、ETH、南京大学、华中科技大学、ETH等等！公司包括但不限于：蔚小理、地平线、华为、大疆、广汽、上汽、博世、轻舟智航、斑马智行、小米汽车、英伟达、Momenta、百度等等。前沿技术聚集地一直是自动驾驶之心的标签！

我们为大家汇总了近40+开源项目、近60+自动驾驶相关数据集、行业主流自驾仿真平台、以及各类技术学习路线，包括但不限于：

自动驾驶感知学习路线	自动驾驶仿真学习路线	自动驾驶规划控制学习路线
端到端学习路线	3DGS算法原理	基于搜索的规划
VLA学习路线	NeRF原理	基于采样的规划
多模态大模型	Carla仿真	基于车辆运动学的规划
占用网络	Apollo仿真	基于数值优化的规划
BEV感知	Autoware仿真	横纵解耦规划框架
扩散模型	联合仿真	横纵联合规划框架
世界模型	自驾仿真产品架构分析	基于几何的路径跟踪
多传感器融合	闭环仿真	模型预测控制
轨迹预测	相关数据集	联合预测
......	......	......