地平线苏箐:曾一度看不到自动驾驶太多希望...

作者 | RoboX 来源 | RoboX

 原文链接:地平线苏箐演讲全文提炼:自动驾驶的曙光、痛苦与轮回 

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近30个方向学习路线

>>自动驾驶前沿信息获取自动驾驶之心知识星球

本文只做学术分享,如有侵权,联系删文

演讲者:苏箐 | 地平线副总裁&首席架构师

演讲时间:2025.12.9

演讲场合:2025地平线技术生态大会

全文提炼如下:

今年,我们确实能看到自动驾驶的技术路径是比较清晰的,但也会看到有更难的问题在前面。你知道这些问题能解掉,但应该怎么解今天还不知道。

绝大多数行业外的人,可能并不理解自动驾驶团队面临的困难和压力。这种智力和体力的双重压榨极度痛苦,因为有SOP的时间压在那儿,然后又有方法论的变化,还有各种corner case需要去解。

在稠密的世界里连续运行的时候,所有的case都需要解决,这就是这个行业非常痛苦的地方。

曙光:重大分水岭的出现

我刚准备加入地平线的时候,和余凯博士聊过几次,我当时很坚决地表示,不想再做自动驾驶了:我觉得做自动驾驶第一太痛苦,第二我看不到太多的希望。因为如果以人类司机的标准来衡量的话,它的差距是非常大的。

因此,在2023-2024年以前,我是看不到太多希望的,也是非常不确定的。

分水岭事件发生在2024年——FSD的v12发布了,它打开了一个内核的新范式,这具有非常重要的意义。

这类似于在原子时代首次发现核裂变是可能的,而且是能释放能量的。当时这个实验结果出来以后,全世界所有从事量子物理的科学家们都认为是不可能的,但是实验逐渐证明这是这是对的,之后又用N年造出了第一颗原子弹。

大家会发现深度学习的神经网络,就像当初的核裂变实验一样,它告诉你这个范式是可能的。FSD V12让大家看到了希望,它把「原子弹」造好了,证明这件事情是对的。

在2023年到2024年之间的自动驾驶,背后有两个问题:

  1. 深度学习只重构了感知部分,感知之后的部分几乎还是规则主导的,相当于「革命革到一半」。「无图」只解决了动态的问题,而没有解决静态认知的问题。

  2. 当一个方法论重构到一半的时候,它的效果却并不能达到一半,可能只是20-30%,必须把后面那一半革命完成,才能迎来新的时代。这就是端到端的意义所在。但这件事情非常难。

因为感知技术也是发展了很多年,才被数据驱动完全搞定的,而规控的理论(至今)都还是不成熟的,且每尝试一轮都需要数亿元,还有可能无果,这对于精神还是资金都是考验:当时的系统是非常不收敛的,任何一个噪声都会导致整个系统废掉,所以这件事情非常困难。

在此背景下,新范式体现出了巨大的意义。

浇一点冷水

人类是很奇怪的一种动物——当事件还未发生时,人类往往完全不相信它会发生;但在事情发生以后,人类又会觉得它会持续发生。你不要以为革命会是一波一波的,它也有可能是最后一波。

自动驾驶的重构会不会是一种常态?我们认为大概率其实不会。

2023-2024年发生的这一次变革,它有两个前提条件:

  1. 人工智能大概每20-30年会有一个轮回,然后大家再干20-30年,干出一个很新的范式来把它兑现掉,兑现了以后却发现它还是有天花板的。

目前我们多多少少能看到这一代的深度学习技术,有一点碰到天花板的可能性。因为从大语言模型和其他领域的进展来看,有这种可能性。

  1. 目前AD的前一段已经革新了,如果我们希望再发生巨大的内核重构,那就不是把深度学习从系统的50%平推到100%,而是要改变内核理论了。

因为物理世界的演进都是先有理论突破,然后到应用突破,如此不断循环。但现在很不幸的是,我们还没有看到下一个理论突破的前置信号出现。即使这种信号出现了,可能还需要5年到20年才能变成应用的突破。

所以我个人判断,很大的概率是未来三年行业都还是会在现有的系统上做极致优化,而不是一种理论内核的重构。所以大家别太嗨,又进入苦日子的阶段了。

  1. FSD V12这类系统的出现,对整个AD产业的路线意味着什么?

首先还是回到三年以前,我跟余凯博士聊天时,终于又看到希望了,我们终于能用新技术把城市的L2做到好用类人了。我可以负责任地说,在未来一年内,AD会有巨大的提升,因为新范式打通以后,它会有一个红利期,会有巨大的提升。

L2和L4的方法论统一了

当系统越来越类人,我们终于有机会把吹了这么多年的牛放到车上,它是新时代的自动挡。

我们认为城市L2会迎来巨大的发展红利期,它的搭载车型会从几十万、20万的车降到10万元的车,就像自动挡一样,而且它都会变得很好用。

这就是计算机工业的好处——突破成本极其高,但复制成本极其低。你今天看到的再复杂的计算机,只要给它几年的时间,就会变得跟白菜一样。所以让10万元甚至更低成本的车都变得一样好用,这件事是一定会到来的。

另外,过去我们认为L2跟L4是两个完全不一样的世界,但是新范式到来以后,我们能看到方法论终于统一了,当前的方法论再做最多2-3年的工作,就有极大的机会把MPI干到5万- 10万公里的水平,同时它还能保持类人,并可以在所有城市、所有区域里,做到自动泛化。

我们发现,新的方法论上去以后,系统在绝大多数城市的测试,都是天然没有问题的,只有极少数的非常奇怪的、离散在系统分布之外的细小场景需要处理一下,过程省了很多时间。

这对L4是个极大的好消息——在搞定一个复杂城市的时候,大概率就搞定了整个国家的复杂城市。

Robotaxi的本质是要和人类司机比成本,这是一切商业本质的源头,所以高成本的复制就不能达到数量级的降本,而是一种线性推进的方法,这在商业上的很薄弱的。

而新方法导致的结果就是,在未来的短短几年内,用同样的开发方式,不但在L2上能带来新的体验,同时还以极低的部署成本和几乎无限制的部署区域,去带来一个L4系统,而且它会以乘用车和Robotaxi的双模式来部署。

我一直不同意Robotaxi只能是Robotaxi,我也很想买一辆车L4的车开。因为车作为一个大玩具也好,第二空间也好,它有它自己独特的价值。而且我自己是比较社恐的,我是不愿意坐出租车的,还要跟司机讲两句话。

另一个复杂性的变化是什么呢?

2023-2024年之前,大家开始在系统空间里去做各种碎片功能的拼凑。

这就像一棵只能长这么高了,那就再种一棵树,然后再种一棵树……把它拼起来,拼各种奇奇怪怪的东西;而在2024年之后,我们就种植一棵树,把这棵树种得越来越粗越来越高,让其网络的主干越来越大,数据量越来越大,然后你会很欣喜地发现它长出了新的能力,而且还是在你不知道的时候。

这就是新的方法论和数据驱动的魅力,它从人类的稠密数据里面,会学到一切能力,无论是好的还是坏的,但是我们需要把坏的处理,这就是跟过去不一样的地方。

下一步怎么做?

我们认为AGI的基础理论在未来3-5年可能不会有全新的突破,而是进入一个演进和优化的阶段。在此前提下,有几件事情仍然是可以做的:

  1. 在大语言模型领域,大家隐约感到了天花板。但是我很高兴的是这件事在AD领域还完全没有发生,Scaling law 在AD行业才刚刚开始。

因为无论是成本问题、功耗问题还是芯片工艺的精度问题,都还没有显现天花板,应该说才刚刚开始。我们后面会每一代芯片和每一代产品都会坚持10倍算力的提升,以及10倍模型容量的提升。

  1. 我们会开始重投L4,但不是以割裂的形式去做,而是以统一的开发范式、统一的传感器配置,统一的ODD区域去打通L2到L4。大家有一天可能不会在意这个概念了,你三年以后买到的车,它就会是准L4系统了,这件事情是高概率会发生的。

  2. 不要应激,要将工程能力和组织能力不断地强化再强化,只有一个稳定的能承载这个工程的公司组织,才能应对一切变化——有新技术的时候,你能快速导入。而新技术导入后碰到一堆爆发的问题,只有集团军的作战能力才能去把它消灭,并且持续打磨这些难题。

今天我们没有非常清晰的答案,但是这件事情是需要我们做的。我之所以仍然焦虑,是因为风险仍然非常高:做一轮实验可能要花10亿,还不一定成功,这种事情是很恐怖的,但是必须要做。

HSD的SOP可以达到我的基本预期,但我们本质的目的是做一个能替代人类司机的机器,否则它就没有意义。从这个维度来讲的话,我觉得还有很多工作需要去做。

未来我们的研发的方式会以L4为核心,希望在未来的2-3年,让HSD这套系统体验的有一个巨大的飞跃,这件事情是一定会发生的。

另外,我很希望在未来的几年,我们能把L4的车以同样的价格,在用户无感的情况下送到你的手上,这是我们希望行业能做到的一个目标,虽然很难,但这是我们所有人辛苦了这20年的意义所在。

自动驾驶之心

端到端与VLA自动驾驶小班课!

图片

添加助理咨询课程!

图片

知识星球交流社区

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值