特斯拉为什么现在不选择VLA?

转载于 2025-12-02 08:01:19 发布 · 17 阅读

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247687067&idx=3&sn=b48339bd3af31ed23b748d62ae087bb7&chksm=cfb7ed68beda00ae3ee1465f56f5f016aaededb6708fa18897dcd44737728a172e9ed46df390&scene=126&sessionid=0

作者 | 深蓝学院来源 | 深蓝AI

原文链接：特斯拉为什么现在不选择VLA?

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近30个方向学习路线

>>自动驾驶前沿信息获取→自动驾驶之心知识星球

本文只做学术分享，如有侵权，联系删文

「通往罗马道路千万条，但极简、极短的就那么一条」

这次ICCV tesla分享了最新FSD技术，从技术架构看其实还是个大号端到端。VLA现在在机器人领域这么火，代表前沿、代表潮流，为什么tesla不选择VLA架构?FSD架构是不是已经落后了呢?

VLA源于早期google机器人使用VLM做为Backbone控制机器人操作，相当于是在VLM基础上增加了Action，缩写为VLA，这也形成了当今机器人领域的主流技术。

对比机器人和自动驾驶

1.任务目标:机器人可以定义为可以完成人类任意指令的机器，自动驾驶则是其中完成起点到终点任务的汽车。产品定义上不同则决定机器人不可能像自动驾驶端到端类似技术方案，它最重要的是要理解人类的语言指令并完成指令目标，对于通用的指令没有比Language更好的表征方式了。但自动驾驶不同，其指令目标就是导航，直接获取高德或是百度导航地图底层数据就可以快速知道怎么完成目标了，比用语言表征更加精确。

2.作业环境:自动驾驶只需要在确定的道路上按照规则行驶，场景相对单一，需要进行复杂拆解的任务少之又少。对于绝大部分司机来说，路怎么走、是加速还是减速，只是个本能反应，绝逼不会每次操作都用语言去分析和解释。需要分析的地方少之又少，即使不确定需要分析时候，车也是会停下来或是低速行驶的。这也是tesla提到只是特殊场景下调用vm模型类似人类的大小脑协作机制。如果一直是大脑工作，没有累死，一日三餐也是满足不了的。

3.硬件限制: 现有端侧硬件基本都没有超过1000 TOPS的，本身算力是捉襟见肘，一个是几B的语言模型基本不可用，连对话都是幻觉，更何况放到车端，对自动驾驶的安全绝对是挑战。从视觉转化到语言，再从语言转化到动作，纯粹浪费算力，拉长耗时。对于高速场景，百公里速度0.1s就已经跑出车道。

而Tesla则选择了快慢思考逻辑，端到端和VLM协同工作，绝大部分场景使用端到端完成，只是很少场景比如交规、非结构化道路场景，才会减速下来调用VLM 。兼顾了当前产品目标、运行环境和硬件限制。

自动驾驶之心

论文辅导来啦

自驾交流群来啦！

自动驾驶之心创建了近百个技术交流群，涉及大模型、VLA、端到端、数据闭环、自动标注、BEV、Occupancy、多模态融合感知、传感器标定、3DGS、世界模型、在线地图、轨迹预测、规划控制等方向！欢迎添加小助理微信邀请进群。

知识星球交流社区

近4000人的交流社区，近300+自动驾驶公司与科研结构加入！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型，更有行业动态和岗位发布！欢迎加入。

独家专业课程

端到端自动驾驶、大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频

学习官网：www.zdjszx.com