从技术狂欢到现实困境：端到端自动驾驶的冷思考-优快云博客

点击下方卡片，关注“自动驾驶之心”公众号

端到端驾驶思考：迷思与困难

这是前面朋友分享的一篇文章，关于端到端落地的一些问题，已经收录在知乎自动驾驶之心里面了，这里和大家再做一次分享！

1）端到端是灵丹妙药吗？

端到端驾驶的核心在于解决信息的无损传递 + 做全局的优化 + 迭代效率的提升。核心优势在解决当前感知无法全量描述场景的问题，以及在数据基础能力足够的前提下，提升迭代效率。

端到端驾驶能明显更好地处理复杂交互场景，真是这样吗？有过驾驶经验的朋友应该清楚，处理交互的核心在怎么预测其他交通者意图，且同步考虑自车动作会给他们带来的影响。这也是很多驾驶公司把预测和决策规划放一个团队的原因。

感知系统发展到今天已经较为成熟，能够准确地描述他们的物理属性(位置，速度，朝向等)。更合理快速的方案是利用数据驱动，做预测决策规划一体的模型，联合优化其他交通参与者的未来轨迹预测和自车的未来路径规划。这在transformer已经发展得炉火纯青的今天，利用query做个联合建模简直不要太容易。此外由于采取结构化的感知数据输入，数据采集可以不依赖真值车大大扩大，同时可以方便地构建模拟器，做闭环的训练迭代。

这也是当前看到大多数厂商的所谓二阶段端到端方案，可以留意下各家放的demo视频，基本都核心在讲交互处理。在大多数场景下，这种二阶段方案都能获得一个还挺不错的性能。毕竟感知的输出虽然是个经验系统，但也经历了这么长时间的设计迭代，至少涵盖了(99%?)的场景。在结构化信息充足的情况下，可以认为规控开始像感知一样，享受数据驱动和计算资源带来的福利。

端到端是一条弯道超车的路径吗。因为有了不太一样的研发范式，所以一定程度上是的，但它又有太多考验团队基础能力和定力的地方，这使得该路径又几乎不可行。

首先数据驱动的迭代模式，决定着需要有强大的数据处理更新基本功。不奢求Tesla这种百万级测试车规模，至少应该要能搞定自己手里，每天几十台测试车的数据采集，打标签，上传，切分，生产吧？就这一步应该就挡住了大多数传统的ADAS供应商们。其次还需要一个大规模的真值系统，能够全自动化的生产基本靠谱的其他中间结果真值标签，方便各种模型试验迭代。最后由于使用原始的传感器输入，对训练卡(A100)以及集群的资源需求也是巨大的，在保障主线模型训练的同时，还要有足够的资源做各种对比实验尝试，千卡A100集群的要求并不过分，这也要求强大的基建能力。

当然上述的技术问题，在钞能力的加持下，业界都有较为成熟的解决方案，更难的是老板的财力和定力。在市场压力巨大的今天，面对已经落后的团队，花费巨大去做一件不具备确定性的事情。如何能顶住诱惑，不去尝试短期demo好看但铁定会失败的方案？就像一个快要饿死的人，如何能够忍住饥饿，有条不紊地做一桌饭菜，而不是选择直接吃碗方便面？这不是一个技术问题。

2）会碰到哪些实际困难呢？

不同于感知任务，规控任务是不满足于I.I.D独立同分布的，模型的当前帧输出会影响下一帧的输入。感知好比数学试卷里的选择题，这一道几何题错了不影响下一道代数题；规控好比同一阅读理解文章下的填空题，这一道文章主旨要是理解错了，下一道谈心得体会大概率也会云里雾里。

由于这一特性，任务会存在累积误差效应。像一个不会开车的新手，在弯道上由于手抖(控制误差)稍微偏离了一点车道，该误差就会累积到下一帧模型的输入上，如果超过了模型见过的数据阈值(比如车道线变成45度横着的了)，实车规划可能就会直接飞掉回不来了。

由于端到端数据基本都是人类司机开车采集的，驾驶行为都趋近于完美，训练数据也是这完美轨迹下的传感器数据，这会带来训练和测试集数据分布不一致的问题(所谓的covariance shift问题)。一些特殊场景，训练样本基本没有(比如车辆去撞路沿了，应该输出什么规划轨迹？)，包括上面提到的累积误差问题，车端模型都没见过45度横着的车道线，自车应该如何做规划？

另外确实就像阅读理解，Planning任务不同于检测任务的唯一性，是具备多模态的。面对前面慢行的三轮车，张三会选择慢速跟随，李四会选择加速换道超车，这俩行为都是合理正确的，但采集的车辆数据却只有一条真值，该如何监督呢？这也从侧面说明了，当前很多评测集去计算ADE / FDE等开集指标的不合理性。

驾驶行为是一个相对低阶的输出，只有对应的一些离散规划点；模型的输入确是相对高阶的，以图像为例，信息很丰富但密度却不够(真正影响自车驾驶行为的，在图像中的信息占比较少)。如何保障模型在低信息密度下能学到真正的驾驶策略？一个被大家常举的例子是，路口红绿灯停车场景，模型很容易就学到了模仿周围的车，而不是红绿灯信息，在一个周围没有车且绿灯的场景，模型很可能会因为周边车辆平均速度为零而停车。

此外由于众所周知的感知图像不可模拟问题，不太能直接使用模拟器解决数据问题，当然这也催生了一系列所谓的自动驾驶world-model应用，不过目前没有看到特别生效的，暂时按下不表。

二阶段的端到端模型和直接端到端模型，在很多问题上其实有相似之处，但对很多内在局限的克服，二阶段方案要容易许多。

更多端到端问题，还原加入国内首个自动驾驶全栈技术交流社区：自动驾驶之心知识星球讨论！

本文内容均出自『自动驾驶之心知识星球』，欢迎加入交流。这里已经汇聚了近4000名自动驾驶从业人员，每日分享前沿技术、行业动态、岗位招聘、大佬直播等一手资料！