纵向端到端是自动驾驶技术的一道分水岭

作者 | EatElephant 来源 |  知乎

 原文链接:https://zhuanlan.zhihu.com/p/1950344892866883662 

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近30个方向学习路线

>>自动驾驶前沿信息获取自动驾驶之心知识星球

本文只做学术分享,如有侵权,联系删文

现如今端到端已经不再是飞速发展的自动驾驶行业里的一个难以企及的高峰了。站在2025年时间节点,绝大多数自动驾驶系统都已经号称自己端到端。VLA,世界模型才是行业里新的热门词汇,也是大家竞相追逐的焦点。然而行业里究竟谁真正实现了横纵向的端到端,这个要么大家避而不谈,要么各种宣传经不起深究。

现如今横向的端到端,或者说模型驱动的横向规划,确实已有不少头部智驾团队实现,然而为什么纵向端到端至今仍是自动驾驶技术的一道分水岭?技术研发希望攻克这一难题,用户甚至专业媒体无法区分什么是真正纵向端到端带来的功能体验,那么纵向端到端为什么难以实现?

为什么需要纵向端到端

为什么我们需要纵向端到端?如果大家还能记起横向端到端前的城市辅助驾驶功能是什么样子,就会回忆起那时候的城市辅助驾驶在绕行超车时候非常犹豫,挣扎,经常会被莫名其妙的障碍物卡死导致接管。正如单纯依赖规则,依赖动态规划等方法无法完全实现拟人高效的超车,绕行等动作一样,单纯依赖规则或者优化方法也难以保证纵向控制的拟人丝滑。

而有驾驶经验的人应该都知道,日常驾驶中区分新手司机和老司机的关键其实在于老司机对速度,对刹车的控制力,踩油门,甚至打方向新手都能一学就会,真正的驾驶智慧体现在对减速的控制。

今天很多家公司都将防御性驾驶当作他们最大的卖点,而防御性驾驶的重头戏正是合理的控制纵向决策,控制加减速。在加减速方面实现丝滑起停可以依靠精调的规划控制算法,若要实现灵活,聪明的控速就要数据驱动的纵向端到端了。很多人甚至是专业智驾媒体都认为,路口能预减速就是防御驾驶,然而简单机械的减速实际上凭借规则就可以实现。那么什么才是真正的防御性减速?我的定义是“根据必要性,或者凭借预判,在合适的时机,于安全和效率间进行权衡取舍来控制速度的行为叫做防御性减速”。直白说就是,什么时候该减,什么时候恢复速度,减速幅度大小都要按需,且时机得当。不应在不该减速时减速,该恢复正常速度时候没恢复,减速幅度不足或过大,同样不好,因为我们的目标是在安全和效率之间权衡取舍。

接下来,我用一组同位置同场景的对比视频来举例说明什么是真正的防御性驾驶。

路口盲区减速

防御性减速”减速晚,车头探出安全区域过长

FSD恰到好处铁门前刹车安全通过盲区

在第一段视频里,自车车头已经明显探出丁字路口铁门很多才减速到12km/h,这个时候如果存在横向来车或者通过铁门的行人则是非常容易发生碰撞危险的。进入路口正中后,车辆还持续减速到8km/h左右才缓慢起步,起步时机比较僵硬,与人类驾驶员预期不符,效率有损失。

自车行驶到路口中间速度才降到12kph,且持续降速

而第二段视频中的FSD在自车还没探出路口在大门内,车速就已经减速到合适的11km/h,最大程度防止了危险的发生。另外自车在以低速完全进入路口后,随着盲区的消失,速度随即开始回升,完全符合人类对防御性驾驶的预期,效率同样得到了保证。

自车探出铁门前就已经降速到11kph,经过路口风险区域随即开始恢复速度

窄路会车

接下来这个窄路会车场景则更加体现横纵向端到端的优势。

会车不让车,最终艰难通行,效率低,风险高

第一段视频中,由于右侧有违停占道车辆,本就狭窄的小路变得异常拥挤,这样的无标线双向行驶道路会车非常困难。自车在明明看到对向来车的情况下选择继续前行,插空会车,然而道路狭窄,碰撞风险极高,自车和对向来车都不得不降低到非常低的车速勉强通过。这里其实很多所谓的博弈,其实是双输博弈,不仅给双方车主造成了非常大的心理压力,对通行效率也毫无益处,甚至在很多场景容易造成交通拥堵。

国内的驾驶环境虽然对此类行为非常包容,然而这段视频中在对向车辆先行到达会车场景的情况下,自车逼近还是非常不礼貌,一般车主也很可能选择接管了。

FSD主动靠右让行,反而通行时间短,效率高,安全性高

第二段视频几乎在同一个位置,FSD同样远远看到对向来车,横纵向端到端模型聪明的选择减速,靠右,让行,整个动作一气呵成。在对向车刚刚经过后,FSD就左打加速,毫不拖泥带水。整个过程礼让,在保证双方车辆安全的同时,通过这一路段的速度效率远远更高。

实际上让智能驾驶系统学会减速,懂得礼让,控制车速,控制交互,远比有空就上,有路就抢要困难的多。

为什么纵向端到端很难实现

George Hotz和他创立的Comma AI曾经是最早扛起端到端自动驾驶大旗的公司之一,然而在Tesla FSD切换到了端到端的V12版本之后,他曾经评论说Comma AI的OpenPilot同样实现了端到端,但是只实现了横向端到端,FSD实现了横纵向端到端,这是FSD的关键领先优势,并声称OpenPilot也会很快实现纵向端到端。然而直到今天,2025年9月,号称将推出纵向端到端功能的OpenPilot 1.0仍旧没有推出,那么为什么纵向端到端这么难实现呢?

早在我自己第一次去北美体验FSD V12的文章站在自动驾驶技术的转折点:V12亲测和端到端技术思考中,就有讨论过类似的问题。

V12即兴发挥地点的Google地图截图,蓝色是导航路线,绿色是V12即兴发挥路线

目前绝大多数智驾系统都以沿着导航路线高效通行作为首要目标,其间会兼顾避免碰撞,法律合规等。然而这意为着在纵向上沿着导航路径前进在自动驾驶功能中的优先级非常高,所以任何减速,让行等行为本质上都是与沿着导航前进且保证效率的目标相矛盾的。因此什么时候应该减速,甚至停车等待,合理的恢复速度,适时让行,让出行驶权,就变得非常困难,一旦时机或者程度掌握不好,就会显得很傻很笨,影响通行效率。因此目前绝大多数系统在纵向端到端做不好的情况下,在规则的纵向控制上采取了有路就走,有空就上的原则。特别是一些装备高精度Lidar的功能,能够很果断的穿行违停车,限宽墩导致的窄路,但也会在会车场景狭路相逢“勇于亮剑”,最终不仅没有提高效率,还破坏了礼让文明的交通环境,显得非常鲁莽。而横向控制在数学上和沿着导航前进的目标是正交的(或者说垂直的),因此跟随导航的目标不会与横向的绕行,变道产生矛盾,所以无论端到端出路径规划还是加上规则辅助都更简单,如今也已经在头部智驾功能中广泛使用起来了。

纵向控制用规则非常难以把加减速时机,程度控制的合理拟人,那么端到端系统凭借目前主流的模仿学习范式为什么也很难从大量人驾数据中学到好的纵向控制逻辑呢?我认为其中一个重要原因是人驾的纵向控制数据本身相比横向驾驶数据就非常的”嘈杂“(noisy)。我们的横向驾驶因为有车道线的概念,绝大多数情况下即使不太规矩的司机也要在车道范围内居中行驶,只有需要变道、绕行时才会发生横向动作,动作与目的有非常强的因果关系,对于弱因果逻辑的模仿学习训练来说,比较容易学到这样的逻辑。而人类司机的纵向控速本身非常随机,大家想想自己开车,目标是踩着限速80开,是不是每隔几秒看一下速度表,就会发现,要么超了一点,要么降了一点,所以自然的人类速度控制数据就是在目标值上下不停波动的,而这种波动的噪声和有意识的纵向控速混在一起,就会淹没很多纵向控速的逻辑关系。我第一次试驾北美FSD V12时,就对FSD能很远发现前方对向车辆左转意图,通过一个非常柔和舒缓降速完美避开左转车流的操作非常惊讶。因为这样的减速其刹车幅度非常微小,可以说跟一个想要控速但是没踩稳的无意识降速没有什么差别,这样就使得模仿学习通过观察人类速度控制学到什么时候应该降速,什么时候只是无意义降速变得异常困难,而这也是目前除了FSD外,大量依赖模仿学习的系统还很难实现纵向控速的关键原因。

解决模仿学习范式无法学会人类纵向行为的关键是什么呢?我认为是大量的数据清洗,语言因果逻辑推理和强化学习三点。大量的数据清洗确保纵向数据的噪声对模型训练影响更小,语言因果逻辑推理则只筛选出那些有逻辑的加减速操作,强化学习避免模型在模仿学习假设中认为人类的数据永远是最优策略从而尝试同时学习有意义和无意义的速度决策,造成因果逻辑的缺失。这三种方法理论上都有机会解决纵向模型直出决策规划的难题,目前头部智驾团队也在尝试,希望不久的将来更加智能,知进退的FSD般的智驾功能会开始走进千家万户。

自动驾驶之心

论文辅导来啦

自驾交流群来啦!

自动驾驶之心创建了近百个技术交流群,涉及大模型、VLA、端到端、数据闭环、自动标注、BEV、Occupancy、多模态融合感知、传感器标定、3DGS、世界模型、在线地图、轨迹预测、规划控制等方向!欢迎添加小助理微信邀请进群。

知识星球交流社区

近4000人的交流社区,近300+自动驾驶公司与科研结构加入!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎加入。

独家专业课程

端到端自动驾驶大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频

学习官网:www.zdjszx.com

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值