从技术狂欢到现实困境:端到端自动驾驶的冷思考

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线


端到端驾驶思考:迷思与困难

这是前面朋友分享的一篇文章,关于端到端落地的一些问题,已经收录在知乎自动驾驶之心里面了,这里和大家再做一次分享!

1)端到端是灵丹妙药吗?

端到端驾驶的核心在于解决信息的无损传递 + 做全局的优化 + 迭代效率的提升。核心优势在解决当前感知无法全量描述场景的问题,以及在数据基础能力足够的前提下,提升迭代效率。

端到端驾驶能明显更好地处理复杂交互场景,真是这样吗?有过驾驶经验的朋友应该清楚,处理交互的核心在怎么预测其他交通者意图,且同步考虑自车动作会给他们带来的影响。这也是很多驾驶公司把预测和决策规划放一个团队的原因。

感知系统发展到今天已经较为成熟,能够准确地描述他们的物理属性(位置,速度,朝向等)。更合理快速的方案是利用数据驱动,做预测决策规划一体的模型,联合优化其他交通参与者的未来轨迹预测和自车的未来路径规划。这在transformer已经发展得炉火纯青的今天,利用query做个联合建模简直不要太容易。此外由于采取结构化的感知数据输入,数据采集可以不依赖真值车大大扩大,同时可以方便地构建模拟器,做闭环的训练迭代。

这也是当前看到大多数厂商的所谓二阶段端到端方案,可以留意下各家放的demo视频,基本都核心在讲交互处理。在大多数场景下,这种二阶段方案都能获得一个还挺不错的性能。毕竟感知的输出虽然是个经验系统,但也经历了这么长时间的设计迭代,至少涵盖了(99%?)的场景。在结构化信息充足的情况下,可以认为规控开始像感知一样,享受数据驱动和计算资源带来的福利。

端到端是一条弯道超车的路径吗。因为有了不太一样的研发范式,所以一定程度上是的,但它又有太多考验团队基础能力和定力的地方,这使得该路径又几乎不可行。

首先数据驱动的迭代模式,决定着需要有强大的数据处理更新基本功。不奢求Tesla这种百万级测试车规模,至少应该要能搞定自己手里,每天几十台测试车的数据采集,打标签,上传,切分,生产吧?就这一步应该就挡住了大多数传统的ADAS供应商们。其次还需要一个大规模的真值系统,能够全自动化的生产基本靠谱的其他中间结果真值标签,方便各种模型试验迭代。最后由于使用原始的传感器输入,对训练卡(A100)以及集群的资源需求也是巨大的,在保障主线模型训练的同时,还要有足够的资源做各种对比实验尝试,千卡A100集群的要求并不过分,这也要求强大的基建能力。

当然上述的技术问题,在钞能力的加持下,业界都有较为成熟的解决方案,更难的是老板的财力和定力。在市场压力巨大的今天,面对已经落后的团队,花费巨大去做一件不具备确定性的事情。如何能顶住诱惑,不去尝试短期demo好看但铁定会失败的方案?就像一个快要饿死的人,如何能够忍住饥饿,有条不紊地做一桌饭菜,而不是选择直接吃碗方便面?这不是一个技术问题。

2)会碰到哪些实际困难呢?

不同于感知任务,规控任务是不满足于I.I.D独立同分布的,模型的当前帧输出会影响下一帧的输入。感知好比数学试卷里的选择题,这一道几何题错了不影响下一道代数题;规控好比同一阅读理解文章下的填空题,这一道文章主旨要是理解错了,下一道谈心得体会大概率也会云里雾里。

由于这一特性,任务会存在累积误差效应。像一个不会开车的新手,在弯道上由于手抖(控制误差)稍微偏离了一点车道,该误差就会累积到下一帧模型的输入上,如果超过了模型见过的数据阈值(比如车道线变成45度横着的了),实车规划可能就会直接飞掉回不来了。

由于端到端数据基本都是人类司机开车采集的,驾驶行为都趋近于完美,训练数据也是这完美轨迹下的传感器数据,这会带来训练和测试集数据分布不一致的问题(所谓的covariance shift问题)。一些特殊场景,训练样本基本没有(比如车辆去撞路沿了,应该输出什么规划轨迹?),包括上面提到的累积误差问题,车端模型都没见过45度横着的车道线,自车应该如何做规划?

另外确实就像阅读理解,Planning任务不同于检测任务的唯一性,是具备多模态的。面对前面慢行的三轮车,张三会选择慢速跟随,李四会选择加速换道超车,这俩行为都是合理正确的,但采集的车辆数据却只有一条真值,该如何监督呢?这也从侧面说明了,当前很多评测集去计算ADE / FDE等开集指标的不合理性。

驾驶行为是一个相对低阶的输出,只有对应的一些离散规划点;模型的输入确是相对高阶的,以图像为例,信息很丰富但密度却不够(真正影响自车驾驶行为的,在图像中的信息占比较少)。如何保障模型在低信息密度下能学到真正的驾驶策略?一个被大家常举的例子是,路口红绿灯停车场景,模型很容易就学到了模仿周围的车,而不是红绿灯信息,在一个周围没有车且绿灯的场景,模型很可能会因为周边车辆平均速度为零而停车。

此外由于众所周知的感知图像不可模拟问题,不太能直接使用模拟器解决数据问题,当然这也催生了一系列所谓的自动驾驶world-model应用,不过目前没有看到特别生效的,暂时按下不表。

二阶段的端到端模型和直接端到端模型,在很多问题上其实有相似之处,但对很多内在局限的克服,二阶段方案要容易许多。

更多端到端问题,还原加入国内首个自动驾驶全栈技术交流社区:自动驾驶之心知识星球讨论!

本文内容均出自『自动驾驶之心知识星球』,欢迎加入交流。这里已经汇聚了近4000名自动驾驶从业人员,每日分享前沿技术、行业动态、岗位招聘、大佬直播等一手资料!

图片

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值