李想:特斯拉V14也用了VLA相同的技术

李想谈AI五阶段与理想技术布局

编辑 | 理想TOP2

转自 | 李想: 特斯拉V14也用了VLA相同技术|25年10月18日B站图文版压缩版

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近30个方向学习路线

>>自动驾驶前沿信息获取自动驾驶之心知识星球

本文只做学术分享,如有侵权,联系删文

压缩版:

视频共计21min24s,花了10min51s介绍对OpenAI定义的5阶段的理解,做了很多类比。认为OpenAI在AI应用/模型/规范定义都做得非常好。

聊天机器人(Chatbots):背后是基座模型,功能是压缩人类已知的数字知识。好比人上学到大学毕业,打下知识基础。

推理者(Reasoners):具备思维链,能进行连续性思考和任务,主要依赖SFT和RLHF训练。好比人读研或有师傅带,获得经验。

智能体(Agents):AI真正开始工作,能使用工具完成长任务。这对AI的专业性和可靠性要求极高(需达到八九十分才合格),好比人胜任一个专业岗位。

创新者(Innovators):为解决智能体专业性难题,通过出题和解题来进行强化训练。这需要世界模型和RLAIF(AI反馈强化学习)来模拟真实环境的训练和反馈,好比职业选手或老司机通过上万小时的实战成为专家。

组织者(Organizations):负责管理大量的智能体和创新,防止失控,如同企业的管理者。

预训练的基座模型不需要每个企业都来做,就像不需要每个企业都需要开大学,建高中小学。

Agent(智能体)阶段需要推理,机器人等设备需要端侧推理,而世界模型阶段则需要海量云端推理来建立数字孪生和管理AI。

未来5年可能对推理算力需求会扩大100倍,对训练算力需求扩大10倍。

理想自研的包括推理模型(MindVLA/MindGPT),智能体(司机Agent/理想同学Agent),世界模型。

2026年将为其自动驾驶配备自研的先进端侧芯片,以实现车与AI的更深度融合。

训练的目的是为了提高成功率。如果AI都在遵循人类的最佳实践进行训练,在这个时候我们人类到底怎么做?李想认为可以参考一万小时,核心是信息处理能力,出题与解体能力,资源分配能力。

V14证明特斯拉也在使用VLA相同的技术,对于空间有了一个完整的理解能力,同时也具备了做一些长任务的多任务的能力,也是马斯克在推特上描述的时候自己最兴奋的点。

喜欢Grok干脆利落的回答方式。

对年轻AI创业者没有建议。

图文版:

大家好,我是李想,今天我来和大家聊一聊人工智能。

我接下来通过三个环节跟大家讲一讲,我对于人工智能更广泛的一个理解。

第一个是什么是人工智能?

什么是人工智能,这里边最好的其实是OpenAI做的关于人工智能5个阶段的定义。所以我说OpenAI不仅仅是一个在人工智能的应用领域,模型领域做得非常出色的公司,我觉得还很重要的是OpenAI是在规范定义的领域,然后做的非常顶级的公司。

OpenAI把整个人工智能定义成了5个阶段,这5个阶段其实是同时存在的。

第一个阶段是聊天机器人。

聊天机器人是一种形态,但它背后其实如果我们拿一个大脑来形容的话,它背后的大脑其实是一个基座模型,就类似于DeepSeek的V3,就是一个大语言的基座模型,而它所发挥的作用是什么?其实是相当于把人类已知的数字世界的知识进行压缩,这是模型的这样一个特点,如果更形象一点的话,怎么来看待基座模型的?

基座模型就有点像我们,从小一直在上学,然后一直上到大学毕业,把我们所学的各种的前人的这种知识进行有效的一个压缩,放在我们大脑里,这是第一个阶段。

第二个阶段是推理者。

因为大家用基座模型的时候就是经常我们会打一个需求他会给一个反馈,打一个需求给一个反馈或者一个query就会给一个结果,到了整个推理的时候就意味着它有一个长的思维链,它能做一些然后连续性的思考和任务。

最典型的就是我们熟悉的DeepSeek的R1,就是reasoning的模型能够做持续的一个推理,它有了一定的逻辑,不需要你一步一步的去打query,然后去打提示词,它能够做一个基础的。而且大家在使用的过程中能看到一个Reasoning一个完整的推理的过程,普遍在15~30秒的一个时间,从而给你一个相对更好的结果。

这是第二个阶段,在这个阶段的时候,他的背后的大脑其实就是一个推理模型,而且推理模型最主要的做的训练的方式,因为基座模型主要依赖于预训练,而推理模型依赖于SFT(监督微调),还有包含RLHF就是通过人类反馈给他一些思维链的,这样的一个训练,我说这是第二个阶段。第二个阶段如果拿人类举例子的话,比较像什么?比较像我们去读博士,然后读研究生,有导师给我们一些经验,真实的,然后在一些领域的思维的经验,又比如说像我们然后去实习或者去工作的时候,有个师傅带我们,他把自己的人类的的一些经验给到我们。

第三个阶段是智能体

第三个阶段,才是真正的然后人工智能大规模应用的一个开始。因为前两个阶段它基本上只是存在于一个文本或者一个思维,但他并不真正去行动,而真正他给出了这么一个简单的答案,或者给了一个逻辑,你还要自己真正去执行。

得,智能体就像人一样,他可以自己真正去工作了,他能完成一个长的任务,他能够去操作工具,比如说他使用编程的软件,他使用搜索,他使用各种的工具,也包含他可以落在一个具体的机器上面,形成机器人,智能体的一个阶段。智能体最大的一个特点是什么?它要能够完成长的连续性的任务,从而去达成目标,而且也有更长的思维链,并不是一个步骤多个思维链,而是多个步骤多个思维链。

其实智能体很重要的一点是要专业,就跟我们真正的走到刚工作岗位上,去胜任一个工作,你是一个程序员,你是一个销售,你是一个编辑,你是一个人力资源,这时候是一个真正智能体的。目前还处在一个智能体发展的初期,智能体相比前两个最大的特点其实就是能够使用工具并建立更长的思维链,他跟人非常相似,而人类对于智能体的要求也会变得更高。

因为你并不是出个主意,你要帮我去解决工作,甚至你要调用我的账户,去购买物品,所以这时候对于智能体的工作质量要求就会更高了,很多时候可能你的工作要做到八九十分才是合格的,而不是像前面的话一个基座模型或者一个推理模型,你做到五六十分,也觉得说得过去了。

这时候其实最大的挑战来了,1个智能体,然后如果完成3个步骤5个步骤的任务,我们看到各种的demo的展示,它往往其实还表现的不错,因为每个步骤的成功率90%以上。可能三五个步骤,还有百分之六七十的成功率,但是我们真实的工作中可能要完成一个工作的步骤,可能是10步20步30步,如果每1个步骤是个90%的成功率,你会发现10个步骤以后,这个结果就完全没法看了,你根本不会去雇佣智能体,所以这时候智能体如何变得像人一样更专业、更职业、更聪明,就变成了更大的一个挑战了,而这时候其实单纯靠我们怎么去调推理的模型都是不够的。

第四个阶段是创新者

这时候其实慢慢的大家又发现OpenAI定义的第四个阶段就很重要了。

我们想一想我们人类世界中真实的创新是什么呢?是出题和解题,创新本身是出题,解题。而出解完的题以后,最后还是要通过专业的工作去落地。所以在这时候我们在理想汽车就会发现,其实训练智能体最有效的方式并不是简单的从基座模型去入手,因为基座模型决定了他能力的下限有多高,他的能力的上限什么。

其实是在于我们怎么给他出真实的题,让他去做足够多的强化训练,也有我们讲的其实通过世界模型,然后生成数据来进行强化的训练。这个也包含什么?也包含着强化学习。然后另外一种描述方式叫RLAIF就由AI生成,并且通过AI给反馈,但是这时候大家就有一个挑战了,说我怎么能够让AI生成好的数据,那就跟前面相关了。

你要有非常好的真实的人类数据来进行重建,你才能够然后通过AI来生成更高质量的一个数据,这时候就需要各个领域的世界模型,比如自动驾驶有自动驾驶领域的世界模型,商业有商业的世界模型,企业有企业的世界模型,我觉得世界模型会决定了创新者在这一个阶段,如果回来拿人举例子什么,我们很多时候一在讲训练,一旦讲这个人很专业,讲这个人可以特别好的胜任一个工作,讲的什么这个人能够完成1万小时的训练,但是1万小时的训练是我们的读研读博的导师给我们的吗?不是,是我们的师傅给我们的1万小时训练吗?也不是,是他们辅助我们能够开始工作了,但是我们工作变得更强,是靠真实的环境的训练和反馈,比如我比较喜欢的一个电竞选手,然后最近法国的EVO比赛里拿了饿狼的冠军的曾卓君,之前的街霸的世界冠军,你可以看他就是通过根据不同的高手,甚至不同的角色不停的去进行练习,所以他有了几万小时的训练,他才成为了世界冠军,我觉得人类是一样的。

销售要经过销售环境的强化训练,开车经过开车环境的强化训练才能变成职业老司机,程序员要经历了真正的编程的环境的训练,他才能变成高级程序员以及变成架构师。所以我说这是第三个阶段,这里边背后需要的其实世界模型能力。

第五个阶段是组织者

比如说当我有那么多agent,有那么多智能体存在,有那么多机器人存在的时候,你怎么去管理他们科幻电影里是个什么特点?

人类能发明特别先进的人工智能,发明特别先进的AI,星球大战、也是这样的各种的科幻片、也都这样的,但最后是因为没有管理好智能体,没有管理好机器人,给人类带来的灾难,所以OpenAI定义的第五个阶段其实是一个组织者,我们一方面其实怎么管理好创新,一方面怎么管理好这些智能体的工作,跟人类的世界是一样的,作为一个企业的管理者,做一个创业者,你怎么管好人,你怎么管好创新就是一个全部,所以我说这是我们看到的OpenAI定义的这样的5个阶段,这些阶段,然后每个企业得很清楚你要做哪些,其实跟别人合作。

比如举1个例子往后来看,我认为预训练的基座模型不需要每个企业都来做,因为它相当于世界知识的压缩,就不需要每个企业都需要开大学,都需要建高中,都需要建小学,对吧?它充分用好开源的,但是它做好专业的推理模型,比如说汽车领域的推理模型,就是我们做的MindVLA。我觉得这个其实是每个企业要想明白的。

另外还有一个很大的挑战,这都是大脑,但是大脑接下来的运算需要心脏,我们可以看到,在第一阶段第二阶段在预训练的阶段,包括用提供差不多的时候,其实需要的是云端的训练和云端的推理,但是如果到了Agent的阶段的时候,主要是用的是推理,如果是机器人或者一些设备,要更快的速度需要终端的推理,再往后其实然后到了这个世界模型的,创新者到后管理的时候需要的什么?需要的是云端的推理,需要海量的云端推理来为这世界生成数据来建立一个数字孪生来管理人工智能。

对算力的判断

再往后我们对于整个人工智能的芯片,半导体的需求就越来越大,我觉得往后如果看5年的话会是今年需求的100倍以上,对于算力的需求,无论是在端侧的算力,还是云端的推理的算力,还是训练的算力,尤其是推理的算力的需求可能会扩大,改变可能训练的算力会扩大10倍,我们要支撑这些智能体,然后也需要设备。

今天这些软件的智能体调用这些工具,它可以跑在手机上,可以跑在电脑上,可以跑在云端,如果是个机器人,它要落在具体的设备上,所以我说这是我们看到的一个完整人工智能的世界。

理想自研技术包含

在这个里面理想汽车我们无论是针对自动驾驶还是针对理想同学,我们既做了推理的模型自己的,包括我们的MindVLA和MindGPT,我们也做了自己的智能体,就是我们司机的Agent和我们的理想同学的Agent,我们也都在构建自己对应的世界模型,同时我们也在思考智能体以后怎么运行管理,也包括它需要多少的算力。

同时在明年大家也可以看到,然后我们的理想汽车对我们的自动驾驶,会有自己的端侧的算力,也是我们自己自研的全世界最先进的芯片,同时我们也做好相应的终端的设备给我们的车会跟人工智能结合的越来越紧密。

对机器人的理解

机器人其实从科幻电影里边,其实都是有两种的机器人的,哪怕我们看变形金刚,其实变形金刚里有两种机器人,然后一种机器人我们看到的擎天柱、大黄蜂,然后威震天这种机器人其实还有一种机器人是什么?其实是宇宙大帝,他把一个星球直接变成了一个机器人。今天我们回到真实的物理世界里来,因为物理世界是需要机器人的,我认为机器人也会有两个路线去发展,一个路线是我们把现有的工具,因为过去都是人在这个工具上来操作这个工具,比如说这个车要有一个司机在开,但是我们把司机变成了模型,变成了算力,放到这个工具里,从而让这个工具变成一个机器人。

再比如说其实我们的检测线是我们的检测的同事,再利用这些设备进行检测,但是我们同样今天可以把模型和算力放进去以后,由他来进行检测,它像人一样的能够去感知这个物理世界,看见这个物理世界,第二它能像人一样的去思维,然后去做进行泛化,然后去处理不同的任务,去解决不同的问题。

也能像人一样的真正去执行,去操纵这些工具,这是我们看到的能够把现有的这些工具进行一些改造,让他有感知能力,让它有大脑的能力,让他有眼睛,让他有脑袋,让它有心脏,自身的过去这些工具本身变成手脚。

这是一个方式,包括我们我们食堂里的大家吃的最多的炒一碗,对它本身,然后是把炒菜这些工具变成了机器人,而并不是把一个人形机器人放在那里炒菜,也不是让一个人形机器人在车里开车,或者让一个人形机器人站在生产线里边提着东西去操作,因为这么着效率其实是更高的。

还有另外一条,然后路径其实就是人形机器人,我们怎么把它做得跟人一样,像人一样去工作,对像人一样能够操作万物,我觉得这是两条不同的路径,我认为在未来的5~10年里边,如果我们能把各种的工具,高效率的然后变成机器人,我觉得对于人类的造福其实非常大的。也是人工智能然后非常重要的,落地的一种方式,我们自己内部也在这方面,然后有相应的研究和探索,我们经常会讨论一些问题,如果智能体做的好了,我们做什么工作,我觉得我们可以换一种方式,因为智能体的一些形态已经产生出来了,包含我们也讲了智能体也需要,通过RLAIF,通过呈现的数据生成的数据的方式对Agent进行训练,而不是仅仅是对模型进行训练了。

这时候我们会发现一个关键的词叫训练,训练的目的什么?训练的目的是为了提高成功率。我又回想起来,其实我们已经很多年不太提的一个词,因为我们很多时候希望短平快,我们在过去的时候经常提的一个词叫什么?叫如果你想胜任一份专业的工作,要经过1万小时的训练,你要在这一个岗位上一个专业的品类里要做1万小时训练,曾卓君他跟不同的高手,打几万个小时他才能有机会成为世界冠军,一个好的销售要面对不同的顾客,要销售持续1万个小时,他才是王牌销售,这时候我们就思考一个问题,如果AI都在遵循人类的最佳实践进行训练,在这个时候我们人类到底怎么做?

我们要么其实能够理解AI,并比AI做得更好,我们还可以管理AI,要么我们做的跟AI一样好,我们跟AI协同人和智能体协同工作,如果我们最后做的连AI都不如,我们就只有一个命运被AI替代。

这时候我们在思考一个问题,就是1万小时训练到底训练什么?我觉得这是一个很重要的启发,我们去看Agent的工作的方式,去看自动驾驶的工作方式,还看一些最顶尖的人的工作方式他到底在训练什么?这是很重要的一个提炼,我们所有的训练其实训练了三个方面的能力。

第一是对于信息处理能力

不同专业其实是不一样的,你的对手出了一些招,哪些招会是致命的,应该怎么防?

曾卓君和我们的判断就是不一样的。来了一个人说了一些话,销售就知道哪些信息重要的,哪些信息是不重要的,我们在开车也是一样的,开车的时候我们看到一个物理世界对吧?然后前面有路有树叶、有树干,甚至还有虫子,那边还有只,但是我们并不需要看所有的信息,我们只处理最有效的一个信息。

作为一个然后CEO我看到那么多的信息我要做决策,我只会取对于决策最有最有效的信息。作为一个投资人他去看到一个创业企业,他要看这里边最有效的一个信息,所以我觉得第一个是你要训练出来哪些信息是你必须要去处理的,然后以及哪些信息要过滤掉,因为你处理了太多不必要的信息,你处理有效的信息就越少,处理信息能力是第一重要的,看到对手的一个表现,曾卓君的处理和我们就是不一样的,处理的速度也是不一样的,我作为一个汽车行业的然后一个产品经理,同样看到一个新的产品的时候,我对这个产品的理解和别的产品理解又是不一样的,因为我收到的信息不一样,所以我这是第一点。

第二是出题及解题能力

第二点收到信息以后干什么呢?要么有问题,要么你有一个目的,所以第二步是什么?要出题解题出题,比如说曾卓君打游戏的时候我要战胜对方,他出的题什么我战胜了对方,我战胜的,然后到底是不知火舞,还是战胜的是隆,打的策略是不一样的,甚至你要派出的选手是不一样的。作为基金经理,我要做一个保守的投资,然后多少钱还是做一个激进的投资,获得15%以上的回报率,它的解题方式是不一样的,对吧?

我们要做一个L6,得做一个MEGA解题方式也是不一样的,所以我觉得第二个是怎么出题和解题。

第三个是资源分配能力

因为资源永远是有限的,我们人类为什么效率那么高?因为人类的大脑的神经元200万亿,今天我们看到了一些模型,其实只有几十亿,但是人为什么功耗那么低?

是因为人的对于大脑的使用效率高,我知道有效的去分配资源,而不是把整个模型全占用,把整个神经元全都占用上。我觉得这是人的,然后一个本事回到我们具体工作中,其实也是一样的,L6用的配置和MEGA用的配置又是不一样的。

我们同样在开车,然后我们的算力怎么分配,我车上的算力是有限的,我怎么分配,哪些是去控制,对哪些去做路径的规划,然后都是不一样的,我觉得这是本身包括一个投资经理,我这些钱哪些应该放在高风险的,哪些放在科技的分类,每个人都是不一样的,销售其实也是不一样的。

所以我说第三个是如何有效的去分配资源,人、也是资源、时间、也是、资源、钱、也是、资源,我们的体力、脑力、也是资源,如何有效的分配资源,我觉得我们做1万小时训练,就是在始终在各个专业领域里边训练这三个能力,你对于信息处理的能力,第二个你去出题和解题的能力,第三个是你如何有效的使用资源的能力,因为资源永远是有限的,但最后然后决定出来他是曾卓君,然后他是最好的产品经理,他是乔布斯他是红杉,你看我觉得这就是我们今天看到的,然后人工智能在发展的过程中给人类最大的一个提示或者是一个警示,只有我们这么做,我们才能更好的去运用人工智能去理解人工智能以及去管理人工智能。

Q1:国庆期间有关注到什么AI动向?

李想:国庆期间我主要的时间在陪着孩子们在玩,所以通过手机看了一些AI相关的新闻,但是其实并没有真正去使用,比如新的Sora我就没有使用,但是我看了很多的这方面的报道,看到过一些视频,尤其是身边的很多朋友做的视频是把自己和山姆奥特曼放在一个画面里。

Q2:特斯拉FSD V14和理想汽车VLA司机大模型的异同是什么?

李想:我自己觉着其实V14然后证明一件事情就特斯拉也在使用VLA相同的技术,因为V14和VLA有一个共同的特点,就是对于空间有了一个完整的理解能力,同时也具备了做一些长任务的多任务的能力,这个其实是显着性的。也是马斯克在推特上描述的时候自己最兴奋的点。

Q3:AI在理想汽车辅助驾驶中的应用有哪些?

李想:我觉得到了VLA以后一切都是AI。

Q4:平时用的最多的AI工具是什么?

李想:理想同学,VLA,其实我自己比较喜欢用Grok,我现在的情况下,任何时候脑子里有一个东西没有答案的时候,我就会问一下理想同学,我用Grok的方式主要是我比较喜欢他的这样的一个对话的方式,他的对话方式相比中国企业做的这些模型一个很大的特点就是他回答东西,比较简单干脆。我们经常的时候还会然后做一些前面的铺垫,后边的辅助。我也经常跟团队说你去多用一下Grok,我们能不能回答很多东西的时候更利索一点。

Q5:怎么看待上班族拿AI写汇报?

李想:我觉得非常好,人类和其他的生物最大的不同就是人类会用先进的工具,而AI目前是最先进的工具。

Q6:如何获取AI资讯?

李想:我订阅很多的关键的一些账号,还会看一些包括B站上有几个关键的,AI的应用的UP主我都会长期来看的,还会经常看一些像怎么去用Sora怎么去用Nano Banana这些应用的一些方式。因为他们然后很多时候玩出一些不一样的特点来,因为你直接看这些使用的说明书或者自己去探索还是有限的,有些人可以应用得非常好,他就直接教你一些技巧。当然还有最重要的理想汽车有非常多的AI不同领域研究团队,有研究空间的,有研究语言模型的,还有研究在工业在商业在企业级落地的。我觉得这些研究我们每周的时间都会通过会议大家进行同步,从而把这种整个行业前沿的这些认知,还有我们自己的一些最佳实践,能够在内部相互分享。

Q7:如果现在20岁会选择进行AI创业吗?

李想:肯定的,而且现在也在做AI的创业,我会做一个强大的Agent,比如说我做一个游戏的陪玩的Agent。而且我可以涉及到它不同的等级,它可以是大师,我觉得这是一个很重要的需求,因为很多时候自己一个人玩游戏太孤独了,

Q8:对当下年轻AI创业者有什么建议吗?

李想:没有,想不到。因为他们可能比我想法更多。

自动驾驶之心

论文辅导来啦

自驾交流群来啦!

自动驾驶之心创建了近百个技术交流群,涉及大模型、VLA、端到端、数据闭环、自动标注、BEV、Occupancy、多模态融合感知、传感器标定、3DGS、世界模型、在线地图、轨迹预测、规划控制等方向!欢迎添加小助理微信邀请进群。

知识星球交流社区

近4000人的交流社区,近300+自动驾驶公司与科研结构加入!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎加入。

独家专业课程


端到端自动驾驶大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频

学习官网:www.zdjszx.com

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值