作者 | RoboX 来源 | RoboX
原文链接:地平线苏箐演讲全文提炼:自动驾驶的曙光、痛苦与轮回
点击下方卡片,关注“自动驾驶之心”公众号
>>自动驾驶前沿信息获取→自动驾驶之心知识星球
本文只做学术分享,如有侵权,联系删文
演讲者:苏箐 | 地平线副总裁&首席架构师
演讲时间:2025.12.9
演讲场合:2025地平线技术生态大会
全文提炼如下:
今年,我们确实能看到自动驾驶的技术路径是比较清晰的,但也会看到有更难的问题在前面。你知道这些问题能解掉,但应该怎么解今天还不知道。
绝大多数行业外的人,可能并不理解自动驾驶团队面临的困难和压力。这种智力和体力的双重压榨极度痛苦,因为有SOP的时间压在那儿,然后又有方法论的变化,还有各种corner case需要去解。
在稠密的世界里连续运行的时候,所有的case都需要解决,这就是这个行业非常痛苦的地方。
曙光:重大分水岭的出现
我刚准备加入地平线的时候,和余凯博士聊过几次,我当时很坚决地表示,不想再做自动驾驶了:我觉得做自动驾驶第一太痛苦,第二我看不到太多的希望。因为如果以人类司机的标准来衡量的话,它的差距是非常大的。
因此,在2023-2024年以前,我是看不到太多希望的,也是非常不确定的。
分水岭事件发生在2024年——FSD的v12发布了,它打开了一个内核的新范式,这具有非常重要的意义。
这类似于在原子时代首次发现核裂变是可能的,而且是能释放能量的。当时这个实验结果出来以后,全世界所有从事量子物理的科学家们都认为是不可能的,但是实验逐渐证明这是这是对的,之后又用N年造出了第一颗原子弹。
大家会发现深度学习的神经网络,就像当初的核裂变实验一样,它告诉你这个范式是可能的。FSD V12让大家看到了希望,它把「原子弹」造好了,证明这件事情是对的。
在2023年到2024年之间的自动驾驶,背后有两个问题:
深度学习只重构了感知部分,感知之后的部分几乎还是规则主导的,相当于「革命革到一半」。「无图」只解决了动态的问题,而没有解决静态认知的问题。
当一个方法论重构到一半的时候,它的效果却并不能达到一半,可能只是20-30%,必须把后面那一半革命完成,才能迎来新的时代。这就是端到端的意义所在。但这件事情非常难。
因为感知技术也是发展了很多年,才被数据驱动完全搞定的,而规控的理论(至今)都还是不成熟的,且每尝试一轮都需要数亿元,还有可能无果,这对于精神还是资金都是考验:当时的系统是非常不收敛的,任何一个噪声都会导致整个系统废掉,所以这件事情非常困难。
在此背景下,新范式体现出了巨大的意义。
浇一点冷水
人类是很奇怪的一种动物——当事件还未发生时,人类往往完全不相信它会发生;但在事情发生以后,人类又会觉得它会持续发生。你不要以为革命会是一波一波的,它也有可能是最后一波。
自动驾驶的重构会不会是一种常态?我们认为大概率其实不会。
2023-2024年发生的这一次变革,它有两个前提条件:
人工智能大概每20-30年会有一个轮回,然后大家再干20-30年,干出一个很新的范式来把它兑现掉,兑现了以后却发现它还是有天花板的。
目前我们多多少少能看到这一代的深度学习技术,有一点碰到天花板的可能性。因为从大语言模型和其他领域的进展来看,有这种可能性。
目前AD的前一段已经革新了,如果我们希望再发生巨大的内核重构,那就不是把深度学习从系统的50%平推到100%,而是要改变内核理论了。
因为物理世界的演进都是先有理论突破,然后到应用突破,如此不断循环。但现在很不幸的是,我们还没有看到下一个理论突破的前置信号出现。即使这种信号出现了,可能还需要5年到20年才能变成应用的突破。
所以我个人判断,很大的概率是未来三年行业都还是会在现有的系统上做极致优化,而不是一种理论内核的重构。所以大家别太嗨,又进入苦日子的阶段了。
FSD V12这类系统的出现,对整个AD产业的路线意味着什么?
首先还是回到三年以前,我跟余凯博士聊天时,终于又看到希望了,我们终于能用新技术把城市的L2做到好用类人了。我可以负责任地说,在未来一年内,AD会有巨大的提升,因为新范式打通以后,它会有一个红利期,会有巨大的提升。
L2和L4的方法论统一了
当系统越来越类人,我们终于有机会把吹了这么多年的牛放到车上,它是新时代的自动挡。
我们认为城市L2会迎来巨大的发展红利期,它的搭载车型会从几十万、20万的车降到10万元的车,就像自动挡一样,而且它都会变得很好用。
这就是计算机工业的好处——突破成本极其高,但复制成本极其低。你今天看到的再复杂的计算机,只要给它几年的时间,就会变得跟白菜一样。所以让10万元甚至更低成本的车都变得一样好用,这件事是一定会到来的。
另外,过去我们认为L2跟L4是两个完全不一样的世界,但是新范式到来以后,我们能看到方法论终于统一了,当前的方法论再做最多2-3年的工作,就有极大的机会把MPI干到5万- 10万公里的水平,同时它还能保持类人,并可以在所有城市、所有区域里,做到自动泛化。
我们发现,新的方法论上去以后,系统在绝大多数城市的测试,都是天然没有问题的,只有极少数的非常奇怪的、离散在系统分布之外的细小场景需要处理一下,过程省了很多时间。
这对L4是个极大的好消息——在搞定一个复杂城市的时候,大概率就搞定了整个国家的复杂城市。
Robotaxi的本质是要和人类司机比成本,这是一切商业本质的源头,所以高成本的复制就不能达到数量级的降本,而是一种线性推进的方法,这在商业上的很薄弱的。
而新方法导致的结果就是,在未来的短短几年内,用同样的开发方式,不但在L2上能带来新的体验,同时还以极低的部署成本和几乎无限制的部署区域,去带来一个L4系统,而且它会以乘用车和Robotaxi的双模式来部署。
我一直不同意Robotaxi只能是Robotaxi,我也很想买一辆车L4的车开。因为车作为一个大玩具也好,第二空间也好,它有它自己独特的价值。而且我自己是比较社恐的,我是不愿意坐出租车的,还要跟司机讲两句话。
另一个复杂性的变化是什么呢?
2023-2024年之前,大家开始在系统空间里去做各种碎片功能的拼凑。
这就像一棵只能长这么高了,那就再种一棵树,然后再种一棵树……把它拼起来,拼各种奇奇怪怪的东西;而在2024年之后,我们就种植一棵树,把这棵树种得越来越粗越来越高,让其网络的主干越来越大,数据量越来越大,然后你会很欣喜地发现它长出了新的能力,而且还是在你不知道的时候。
这就是新的方法论和数据驱动的魅力,它从人类的稠密数据里面,会学到一切能力,无论是好的还是坏的,但是我们需要把坏的处理,这就是跟过去不一样的地方。
下一步怎么做?
我们认为AGI的基础理论在未来3-5年可能不会有全新的突破,而是进入一个演进和优化的阶段。在此前提下,有几件事情仍然是可以做的:
在大语言模型领域,大家隐约感到了天花板。但是我很高兴的是这件事在AD领域还完全没有发生,Scaling law 在AD行业才刚刚开始。
因为无论是成本问题、功耗问题还是芯片工艺的精度问题,都还没有显现天花板,应该说才刚刚开始。我们后面会每一代芯片和每一代产品都会坚持10倍算力的提升,以及10倍模型容量的提升。
我们会开始重投L4,但不是以割裂的形式去做,而是以统一的开发范式、统一的传感器配置,统一的ODD区域去打通L2到L4。大家有一天可能不会在意这个概念了,你三年以后买到的车,它就会是准L4系统了,这件事情是高概率会发生的。
不要应激,要将工程能力和组织能力不断地强化再强化,只有一个稳定的能承载这个工程的公司组织,才能应对一切变化——有新技术的时候,你能快速导入。而新技术导入后碰到一堆爆发的问题,只有集团军的作战能力才能去把它消灭,并且持续打磨这些难题。
今天我们没有非常清晰的答案,但是这件事情是需要我们做的。我之所以仍然焦虑,是因为风险仍然非常高:做一轮实验可能要花10亿,还不一定成功,这种事情是很恐怖的,但是必须要做。
HSD的SOP可以达到我的基本预期,但我们本质的目的是做一个能替代人类司机的机器,否则它就没有意义。从这个维度来讲的话,我觉得还有很多工作需要去做。
未来我们的研发的方式会以L4为核心,希望在未来的2-3年,让HSD这套系统体验的有一个巨大的飞跃,这件事情是一定会发生的。
另外,我很希望在未来的几年,我们能把L4的车以同样的价格,在用户无感的情况下送到你的手上,这是我们希望行业能做到的一个目标,虽然很难,但这是我们所有人辛苦了这20年的意义所在。
自动驾驶之心
端到端与VLA自动驾驶小班课!

添加助理咨询课程!

知识星球交流社区

1039

被折叠的 条评论
为什么被折叠?



