地平线苏箐：曾一度看不到自动驾驶太多希望...

最新推荐文章于 2025-12-10 17:48:27 发布

转载最新推荐文章于 2025-12-10 17:48:27 发布 · 5 阅读

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247687685&idx=1&sn=c0e271be90eaeb4c31b9a0d1ef642a84&chksm=cffbf564f65cd65465f920ac022df8ae940c99a20c9630e5196b98ad7c46472e3889cc80b791&scene=126&sessionid=0

文章标签：

#自动驾驶 #人工智能 #机器学习

作者 | RoboX 来源 | RoboX

原文链接：地平线苏箐演讲全文提炼：自动驾驶的曙光、痛苦与轮回

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近30个方向学习路线

>>自动驾驶前沿信息获取→自动驾驶之心知识星球

本文只做学术分享，如有侵权，联系删文

演讲者：苏箐 | 地平线副总裁&首席架构师

演讲时间：2025.12.9

演讲场合：2025地平线技术生态大会

全文提炼如下：

今年，我们确实能看到自动驾驶的技术路径是比较清晰的，但也会看到有更难的问题在前面。你知道这些问题能解掉，但应该怎么解今天还不知道。

绝大多数行业外的人，可能并不理解自动驾驶团队面临的困难和压力。这种智力和体力的双重压榨极度痛苦，因为有SOP的时间压在那儿，然后又有方法论的变化，还有各种corner case需要去解。

在稠密的世界里连续运行的时候，所有的case都需要解决，这就是这个行业非常痛苦的地方。

曙光：重大分水岭的出现

我刚准备加入地平线的时候，和余凯博士聊过几次，我当时很坚决地表示，不想再做自动驾驶了：我觉得做自动驾驶第一太痛苦，第二我看不到太多的希望。因为如果以人类司机的标准来衡量的话，它的差距是非常大的。

因此，在2023-2024年以前，我是看不到太多希望的，也是非常不确定的。

分水岭事件发生在2024年——FSD的v12发布了，它打开了一个内核的新范式，这具有非常重要的意义。

这类似于在原子时代首次发现核裂变是可能的，而且是能释放能量的。当时这个实验结果出来以后，全世界所有从事量子物理的科学家们都认为是不可能的，但是实验逐渐证明这是这是对的，之后又用N年造出了第一颗原子弹。

大家会发现深度学习的神经网络，就像当初的核裂变实验一样，它告诉你这个范式是可能的。FSD V12让大家看到了希望，它把「原子弹」造好了，证明这件事情是对的。

在2023年到2024年之间的自动驾驶，背后有两个问题：

深度学习只重构了感知部分，感知之后的部分几乎还是规则主导的，相当于「革命革到一半」。「无图」只解决了动态的问题，而没有解决静态认知的问题。
当一个方法论重构到一半的时候，它的效果却并不能达到一半，可能只是20-30%，必须把后面那一半革命完成，才能迎来新的时代。这就是端到端的意义所在。但这件事情非常难。

因为感知技术也是发展了很多年，才被数据驱动完全搞定的，而规控的理论（至今）都还是不成熟的，且每尝试一轮都需要数亿元，还有可能无果，这对于精神还是资金都是考验：当时的系统是非常不收敛的，任何一个噪声都会导致整个系统废掉，所以这件事情非常困难。

在此背景下，新范式体现出了巨大的意义。

浇一点冷水

人类是很奇怪的一种动物——当事件还未发生时，人类往往完全不相信它会发生；但在事情发生以后，人类又会觉得它会持续发生。你不要以为革命会是一波一波的，它也有可能是最后一波。

自动驾驶的重构会不会是一种常态？我们认为大概率其实不会。

2023-2024年发生的这一次变革，它有两个前提条件：

人工智能大概每20-30年会有一个轮回，然后大家再干20-30年，干出一个很新的范式来把它兑现掉，兑现了以后却发现它还是有天花板的。

目前我们多多少少能看到这一代的深度学习技术，有一点碰到天花板的可能性。因为从大语言模型和其他领域的进展来看，有这种可能性。

目前AD的前一段已经革新了，如果我们希望再发生巨大的内核重构，那就不是把深度学习从系统的50%平推到100%，而是要改变内核理论了。

因为物理世界的演进都是先有理论突破，然后到应用突破，如此不断循环。但现在很不幸的是，我们还没有看到下一个理论突破的前置信号出现。即使这种信号出现了，可能还需要5年到20年才能变成应用的突破。

所以我个人判断，很大的概率是未来三年行业都还是会在现有的系统上做极致优化，而不是一种理论内核的重构。所以大家别太嗨，又进入苦日子的阶段了。

FSD V12这类系统的出现，对整个AD产业的路线意味着什么？

首先还是回到三年以前，我跟余凯博士聊天时，终于又看到希望了，我们终于能用新技术把城市的L2做到好用类人了。我可以负责任地说，在未来一年内，AD会有巨大的提升，因为新范式打通以后，它会有一个红利期，会有巨大的提升。

L2和L4的方法论统一了

当系统越来越类人，我们终于有机会把吹了这么多年的牛放到车上，它是新时代的自动挡。

我们认为城市L2会迎来巨大的发展红利期，它的搭载车型会从几十万、20万的车降到10万元的车，就像自动挡一样，而且它都会变得很好用。

这就是计算机工业的好处——突破成本极其高，但复制成本极其低。你今天看到的再复杂的计算机，只要给它几年的时间，就会变得跟白菜一样。所以让10万元甚至更低成本的车都变得一样好用，这件事是一定会到来的。

另外，过去我们认为L2跟L4是两个完全不一样的世界，但是新范式到来以后，我们能看到方法论终于统一了，当前的方法论再做最多2-3年的工作，就有极大的机会把MPI干到5万- 10万公里的水平，同时它还能保持类人，并可以在所有城市、所有区域里，做到自动泛化。

我们发现，新的方法论上去以后，系统在绝大多数城市的测试，都是天然没有问题的，只有极少数的非常奇怪的、离散在系统分布之外的细小场景需要处理一下，过程省了很多时间。

这对L4是个极大的好消息——在搞定一个复杂城市的时候，大概率就搞定了整个国家的复杂城市。

Robotaxi的本质是要和人类司机比成本，这是一切商业本质的源头，所以高成本的复制就不能达到数量级的降本，而是一种线性推进的方法，这在商业上的很薄弱的。

而新方法导致的结果就是，在未来的短短几年内，用同样的开发方式，不但在L2上能带来新的体验，同时还以极低的部署成本和几乎无限制的部署区域，去带来一个L4系统，而且它会以乘用车和Robotaxi的双模式来部署。

我一直不同意Robotaxi只能是Robotaxi,我也很想买一辆车L4的车开。因为车作为一个大玩具也好，第二空间也好，它有它自己独特的价值。而且我自己是比较社恐的，我是不愿意坐出租车的，还要跟司机讲两句话。

另一个复杂性的变化是什么呢？

2023-2024年之前，大家开始在系统空间里去做各种碎片功能的拼凑。

这就像一棵只能长这么高了，那就再种一棵树，然后再种一棵树……把它拼起来，拼各种奇奇怪怪的东西；而在2024年之后，我们就种植一棵树，把这棵树种得越来越粗越来越高，让其网络的主干越来越大，数据量越来越大，然后你会很欣喜地发现它长出了新的能力，而且还是在你不知道的时候。

这就是新的方法论和数据驱动的魅力，它从人类的稠密数据里面，会学到一切能力，无论是好的还是坏的，但是我们需要把坏的处理，这就是跟过去不一样的地方。

下一步怎么做？

我们认为AGI的基础理论在未来3-5年可能不会有全新的突破，而是进入一个演进和优化的阶段。在此前提下，有几件事情仍然是可以做的：

在大语言模型领域，大家隐约感到了天花板。但是我很高兴的是这件事在AD领域还完全没有发生，Scaling law 在AD行业才刚刚开始。

因为无论是成本问题、功耗问题还是芯片工艺的精度问题，都还没有显现天花板，应该说才刚刚开始。我们后面会每一代芯片和每一代产品都会坚持10倍算力的提升，以及10倍模型容量的提升。

我们会开始重投L4，但不是以割裂的形式去做，而是以统一的开发范式、统一的传感器配置，统一的ODD区域去打通L2到L4。大家有一天可能不会在意这个概念了，你三年以后买到的车，它就会是准L4系统了，这件事情是高概率会发生的。
不要应激，要将工程能力和组织能力不断地强化再强化，只有一个稳定的能承载这个工程的公司组织，才能应对一切变化——有新技术的时候，你能快速导入。而新技术导入后碰到一堆爆发的问题，只有集团军的作战能力才能去把它消灭，并且持续打磨这些难题。