Waymo的EMMA给多模态端到端自驾指引了方向

原创

已于 2024-11-02 21:24:50 修改 · 1.2k 阅读

12 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #自动驾驶

于 2024-11-02 21:05:32 首次发布

最近Waymo发的论文EMMA端到端确实在自动驾驶届引发了很大的关注，核心的原因是它采用的端到端模型是基于Gemini Nano的语言模型，目前看现在做端到端方案的，就它和特斯拉是语言模型为底座来实现多模态视觉输入的。

EMMA:End-to-End Multimodal Model for Autonomous Driving

端到端多模态自动驾驶的意思，不是艾玛电动车

论文地址：2410.23262

先看看他是怎么做的

第一：感知层面，它纯视觉，没有雷达之类的输入

第二：输入层面是多维度的信息，包括高维指令，来自于比如google地图的导航指令，例如向左，向右之类的，具象化可以被认为是：“前方请在第二个匝道右转出匝道这种指令”

第三：任何关于此车也就是ego car的既往历史路线和其他的数据

然后就没什么了

把上面这三种东西，我们叫做T和V，T是text信息，V就是vision信息，也就是视频图像一类，最终拆帧也都是以图片形式来embedding的

紧接着，我们要设计一个网络G。这个网络EMMA里用的是Gemini的Nano，选Gemini Nono有它显示的意义，核心原因是这东西不开源，所以堆料比较猛，没有太多的顾及，可以很深度的做蒸馏。试想如果GPT4o出一个Nano是什么概念就可以了。

既然要不是day1就自己训练的，那么底模肯定是要选一个泛化能力高的，推理能力尽可能强的模型

O自然就是把T和V输入给G以后生成的输出了

因为是语言模型，所以O其实是一个序列

输出的概率分布就可以写成下面这样

我们进一步细化一下，这几个参数和输出

V就是所有视觉的东西了吧，一般我们回塞给它一个BEV的视角，因为要感知周边的所有环境

T要分几个维度：

第一个就是T_intent，也就是高维指令，什么左转，右转啥的

第二个就是T_ego,历史自车状态

- 这些状态表示为BEV空间中的一组路径点坐标 (x_t, y_t)，用于 -T_h到 T_h ，这一段时间的时间戳。这些坐标表示为纯文本，无需特殊的标记。
- 这一历史状态也可以扩展其包含更高阶的自车状态，如速度和加速度。

未来轨迹就可以被表达成以上的式子

那么好，现在我把我的公式再拿出来

我的摩西那个可以与出来一个O'_trajectory对吧，而基于训练数据，它一定有个真实的未来轨迹O_trajectory,两者求个Lost，这不就损失函数也有了吗?

其实关于基本训练这块，就是这么的简单

牛B的是，这个训练是自监督的，你可以认为和语言模型的pretrain差不多，两者都是没什么人类输入的干扰，比如做语言模型，你的next-token的predicate就是这句话的下一个字对吧？那你玩这个EMMA，next-token就是输入给你目前的信息，你给我预测后面车的位置(x_t, y_t)，然后多个位置就有一个trajectory，就完了。

这样的好处是和预训练LLM的道理是一样的，尽量让模型寻找隐空间里不易被人类捕捉到的规则，从这个角度上来讲EMMA的论文有这一个点就很有价值。

当然也不是啥任务都适合拿自监督来训练，例如3D物体检测、道路图估计和场景理解。这些任务需要使用人工标注的数据进行训练，这些就跟一般supervior的tunning也没啥区别了

人们都反映大模型是黑盒，尤其在自动驾驶领域这块，需要强烈的决策可解释性，EMMA用了prompt让LLM输出它的COT决策机制，这点我觉得是另一个创新点（这块学到了，我拿O1来做自驾的规划输出这块，最近也准备加入reasonning输出这部分

COT是啥就不解释了，看我频道的读者都知道，确实可以一定成都上增强推理能力并提高可解释性的强大工具（O1都玩TOT了，而且是原生，更牛B）。在 EMMA 中，作者将链式思维推理引入到端到端规划器轨迹生成中，通过要求模型表述其决策依据 O_rationale ，同时预测最终的未来轨迹路径点 O_trajectory 。

我们按照层次结构组织驾驶依据，从4种类型的粗到细的信息开展：

R1 - 场景描述 (Scene description)：