楼天城:VLA帮不了L4

楼天城谈L4自动驾驶技术瓶颈

作者 | 曹锦 来源 |  RoboX

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近30个方向学习路线

>>自动驾驶前沿信息获取自动驾驶之心知识星球

本文只做学术分享,如有侵权,联系删文

作为一名围棋爱好者,楼天城至今还经常喜欢看棋。

在观看Master(AlphaGo的升级形态)下棋时,如果出现了不理解的招数,他会下意识觉得是因为「身为人类的自己太蠢了」。

在他看来,现阶段的L4自动驾驶也步入了这一阶段——Robotaxi的决策和轨迹开始变得不易被人理解。

相比较下,L2则会永远停留在理解范围之内,因为后者只是模仿人类,而前者必须超越人类。

在4月23日的上海车展上,小马智行发布了搭载第七代自动驾驶系统方案。搭载该方案的Robotaxi拥有100%车规级零部件(覆盖从线束、连接器到固态激光雷达、英伟达Orin-X芯片等零部件),自动驾驶套件总成本较前代下降70%,还可支持平台化适配设计。

同时,基于小马智行PonyWorld 世界模型技术基座,Robotaxi安全性比人类驾驶高出10倍。

在发布会后,RoboX与小马智行联合创始人、CTO——楼天城进行了对话,谈到了「从L2到L4」、机器人,以及海外发展等话题。

VLA只会「短跑」,而非「长跑」

尽管小马智行直到现在才发布Ponyworld世界模型,但其实他们已经使用了多年此类技术:“世界模型在机器学习领域已经有30年历史了,我们使用世界模型已接近6年,L4都普遍在用…我一直以为这是业界共识,并未意识到大家不知道这一信息,所以从未强调过。”楼天城说道。

世界模型带来的主要是学习方式的改变——人类有两种学习模式:一种是模仿学习,方便快捷,也没有不确定因素,但学生很难超过老师;另一种是强化学习:由老师创造试验环境,自己去摸索。

楼天城指出,所有L4公司都是在强化学习模式中演进。直到端到端、世界模型等术语成为L2辅助驾驶最火的概念,他才将早已在用的技术对外摆在了台面上。

“小马智行的技术路线经历了多次变革,其中也包括端到端——自Transformer出现开始,小马智行就开始整合从感知到执行的模块,使得训练难度、表达能力都逐步提升。彼时,Waymo、百度也都已经开始用上了这一思路。”

2023年8月,小马智行就已将感知、预测、规控三大传统模块打通,统一成端到端自动驾驶模型,搭载到L4级自动驾驶出租车和L2级辅助驾驶乘用车上。该模型在L4级车辆扮演冗余系统的角色,同时也可作为L2级车辆的解决方案。

到了现在,端到端成为了L2的必选项,但对L4公司来说,却早已是标配了。

至于VLA(视觉语言模型,Vision-Language Model),楼天城的态度则更加明确:“VLA在L4上基本帮不上忙。”

VLA模型擅长整合视觉和语言信息,处理跨模态任务(如图像描述、视觉问答),其核心优势在于跨领域通用性。但它通常不针对特定领域进行深度优化,其知识通过大规模预训练获得,缺乏对自动驾驶中极端场景的建模能力。(编者注)

他指出,从VLA模型的属性来看,它相当于一个「全科大夫」,可追求极端安全的L4需要的是「专科大夫」。

“它就像一个更优秀的短跑运动员,但腿部肌肉并不适合长跑。哪怕它经过不断锻炼成为了博尔特,也不代表他能长跑。”

个人用户何时能用上L4?

从产品形式来说,即便是「车位到车位」,也终究人需要人类介入,这样的产品属性永远没法跨越。

“换句话说,如果安全有一条及格线,L4的安全及格线基本就是满分线,L4真正的挑战就在这里。在此标准上,L2差得非常远……它其实根本过不了L4的及格线,而且会越差越远。”

楼天城认为,目前在L2已经逐渐「平权」的情况下,行业寻求向L3进阶是情理之中的事。然而L3的很多做法,还只是延续了L2的影子,并非实现质变,也不会渐进到L4。

那么,L4的技术,何时能降维到面向个人的量产车上呢?这或许会比预想的要久。

“至少不会是二零二几年。因为目前的Robotaxi还需要专门的区域控制、运营、看护、远程客服等多维度的工作。直到今天,L4也只做了几个城市,卖给个人的难度更是不可同日而语。”

具身智能也将经历「真空期」

尽管自动驾驶和机器人有共通之处,甚至前者也是具身智能的一部分。但小马智行仍然没有做机器人的计划。

“不是因为技术不通用,而是因为我觉得自动驾驶是机器人领域最容易落地的东西。如果连这点都做不到,其他也无从谈起。”

楼天城认为,具身智能和需要蜇伏更长的时间,和AGI一样,都会经历和自动驾驶一样的真空期。

在他看来,具身智能今天的状态和自动驾驶2018年的状态非常像:“我非常怀念那个时候,那时只要做做Demo就行了。”

在次年,疫情来袭,他认为这反而为自动驾驶提供了一个潜心研究的「蛰伏期」:“那段时间,大家的心态平比较淡一些,这帮助团队撑过了那段真空期。”

他坦言,如今具身智能做的很多展示都很炫酷,但真正的商业化需要考虑很多长尾问题。只有撑过这段没有任何进展的真空期,才能继而衡量其商业和应用价值。

这些挑战都是自动驾驶曾经遭遇过的,因为他经历过,才知道有多困难。

“自动驾驶恐怕是Agent领域中最pioneer的应用了,没有比Robotaxi更好落地应用的。如果连这一方面都做不到的话,一定上不了牌桌。”

第七代系统的使命

如今,小马智行的Robotaxi车队已至少已经跑了50万个小时,已经扩展至市中心、高快速路。

所以到了现在,楼天城认为,是时候讲成本和量产了。

现在小马智行的Robotaxi已实现零部件100%都是车规的,这也是降本的关键所在。“在这一点上,其他家都还没做到,尤其Waymo是做得最差的。”

楼天城指出,降本的过程有两个大的里程碑:1、去掉人,2、车规化量产的这种硬件。这一代系统就是为了达到这个目的。

另外,至今还总有人认为Robotaxi需要付出大量「云代驾」的成本,楼天城也对此进行了澄清。

“我从不会以任何方式尝试云代驾的逻辑。一般人可能不清楚云代驾的网费高昂到什么地步,而且它对网络的要求非常高,可能配有云代驾的一辆车,相当于购买并折旧十辆普通车辆的成本总和。而且,由于没有身临其境的感觉,云代驾做的判断也是有误差的。”

(第七代Robotaxi车规级测试)

楼天城表示,小马智行从第一天就没有尝试过任何代驾的概念,只是有远程客服,Waymo也从未做过云代驾。

尽管在降本上,小马智行已做到了极致,可楼天城还是直言,第七代小马智行Robotaxi的价格,会在合理范围内定得相对较高。“因为AI的本意,是提供好的产品和高质量的服务,而不是把价格卷得更低。”

自动驾驶之心

论文辅导来啦

自驾交流群来啦!

自动驾驶之心创建了近百个技术交流群,涉及大模型、VLA、端到端、数据闭环、自动标注、BEV、Occupancy、多模态融合感知、传感器标定、3DGS、世界模型、在线地图、轨迹预测、规划控制等方向!欢迎添加小助理微信邀请进群。

知识星球交流社区

近4000人的交流社区,近300+自动驾驶公司与科研结构加入!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎加入。

独家专业课程


端到端自动驾驶大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频

学习官网:www.zdjszx.com

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值