自动驾驶Ask Me Anything问答整理！VLA和WA的路线之争？

最新推荐文章于 2025-12-02 20:41:06 发布

转载最新推荐文章于 2025-12-02 20:41:06 发布 · 337 阅读

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247681999&idx=2&sn=20824e35bdab79c7d35a17107276a8ee&chksm=cf410b66194f217e06da01d26a686c3011beca446a32fddf8c3c67ba7c37e6df79e584a6ecc5&scene=126&sessionid=0

文章标签：

#自动驾驶 #人工智能 #机器学习

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近30个方向学习路线

趁着小红书这波Ask Me Anything，跟着几位大佬学习到很多自动驾驶之心汇总了自动驾驶AMA的一些问答，分享给大家！AMA的完整版我们已经汇总至自动驾驶之心知识星球，后续还将持续整理大佬们的问答，欢迎加入和4000人一起交流自动驾驶最前沿~

小米陈龙

小米汽车自动驾驶与机器人Principal Scientist陈龙@陳龍龖龘

Q1：陈老师好！我目前是同济新大一学生（未选专业，工科可任选），未来想研究自动驾驶领域，请问您就行业发展与人才缺口而言推荐学什么专业呢？

A1：自驾有可能4年后就解决的差不多了，但AI方向肯定是没错的，所以有AI专业的话首选，没有的话就计算机

Q2：wayne工作体验怎么样呢？感觉很多黑科技，学生时代一直在follow

A2：wayve确实想得比较远，端到端，世界模型，VLA等自驾模型基本上都是产业界的开创者

Q3：请问你认为人类可以实现完全自动驾驶吗，如果可以大概还需要几年

A3：肯定可以的，L4其实Waymo、萝卜快跑已经实现了，L5可能还要至少5年

Q4：现在业界领先端到端能解决多少百分比的问题，上了vlm和vla又能把上限提升多少呢？

A4：个人认为90%吧，可以看下fsdtracker的top intervention，特斯拉把端到端做到极致了，安全性已经基本上能保证，剩下的大部分问题（比如lane issue）都是需要VLA去解决的

Q5：请教三个问题： 1. VLA和端到端的本质区别是什么？ 2. 语言是必须的吗，会不会世界模型才是终局？ 3. 怎么看待感知传感器里这两年提的比较多的成像毫米波雷达？

A5：1. VLA也是端到端，只是可以利用语言模态进行推理从而降熵增加确定性 2. 语言是必须的，参考猩猩学开车也能学会，但不理解这个世界没有语言推理能力终究会出各种问题 3. 4D毫米波雷达是一个纯视觉很好的冗余，当达到几千几万MPI时就会意识到冗余的重要性了

Q6：请问大佬认为做具身长期的个人竞争力是什么呢？多模态想转具身，但是不知道技能壁垒有多高

A6：现在具身领域vla很火，大模型转具身还是比较容易的。可以看一下openvla，phi0.5等经典工作的代码，只是在vlm上加了action policy。真正有竞争力的话还是需要更大的scale，更多创新，真机夸本体泛化等等。

Q7：vla到底有没有用？

A7：终局肯定是VLA，端到端只能解决基本的驾驶能力。道路是为人设计的，有很多需要基于认知推理的场景，所以让车更像人一样思考，是通往高阶自动驾驶的关键。

Q8：如果说端到端只解决基本的驾驶能力(即视距范围内的局部感知规划控制)，终局是VLA，那为什么终局不是Worldmodel(解决全局导航规划任务和车道级规划)+VA（解决局部感知规划）。一直觉得VLA中间转一层L 很多余，L可以做提示辅助（类似人开车时候的导航提示：前方100米左转），但不是必须的，因为我只看导航不听提示依然可以完成整个驾驶任务

A8：WM是为了加强端到端的能力，VLA不是为了简单转成L，是为了利用VL的泛化和推理能力，在长尾问题上做出较为正确的决策。

Q9：Momenta CEO 曹旭东认为VLA只能锦上添花，VLA概念跟更好的模型不是同一件事，实现规模化L4需要海量数据和强化学习技术。他似乎不太认同VLA路线，您怎么看？

A9：VLA也是端到端模型也可以用强化学习训练。自动驾驶L5的终局一定是VLA范式，而L4可能是纯端到端的上限，因为总会有长尾问题处理不了。

Q10：老师好，人形机器人的“像”（身体协调及美感）人和“做”（实用功能及效益）人哪个发展会最快及重要性和结合点

A10：短期内实用功能的发展会快于身体协调美感，并且从价值角度看“做”也远比“像”更重要，因为功能和效益是机器人商业化的核心，一个能干活但不太协调的机器人，远比一个动作优美但无法完成任务的机器人有价值。

PS. 欢迎添加柱哥微信交流

中科院夏中谱

中科院自动化所夏中谱@AI的前浪

Q1：老师你能不能说下目前哪家车企智驾最强？

A1：从效果体验上看特斯拉还是当之无愧

Q2：理想小鹏的vla路线，和华为不搞vla搞wewa的路线，请问如何评价？希望您实话实说

A2：之前端到端视频输入轨迹输出，可以认为是个VA模型。VLA相当于是把LLM,模型能力引入到VA模型中，LLM模型优势在于模型参数量和海量互联网数据，具备zero/few-shot能力。但其主要学习的是语言数据，语言只是个宏观概念，很难对物理空间建模，如何让VLM具备空间理解能力也是当前研究热点。WM也不一样，直接在VA模型基础增加其他模态和数据，学习物理空间和运行规律，相对而言是个难度更大但更本质的方向。

Q3：老师，目前看到FSD在国内闯红灯乱压线错道行驶是数据上的问题还是模型有问题？上次看到澳大利亚北美本土FSD也存在这些问题。

A3：客观来说，现阶段的技术和人类司机一样，无法做到百分百不闯红灯和压实线，技术目标就是把这个做到百分百。数据里面会有这类人类灵活决策的情况，比如红绿灯坏了、道路堵塞了，都会发生红灯通过路口、压实线行驶的数据。

Q4：老师怎么看现在国内的自动驾驶解决方案的发展和欧美日的相比呢？比如欧美企业偏好的Mobileye（虽然目标客户可能也主要是欧美市场）

A4：目前看智驾在国内发展态势远优于国外，目前除了特斯拉，没有在国内能发的。

Q5：现在市面上的两段式端到端一般分为几类？

A5：主流方法有三种:1. 一段式端到端，感知结构化输出，规划使用结构化信息出轨迹，像华为的GOD+PDP，优势在于仿真容易。2. 一段式模块端到端，感知—规划隐式特征传递，信息更丰富，如UniAD。3. OneModel 端到端，感知和规划并行输出，规划可以提取到原始Image信息，信息利用率更高，如理想端到端。