OpenEMMA: 打破Waymo闭源,首个开源端到端多模态模型

导读:

OpenEMMA,它是首个基于多模态大型语言模型的开源端到端框架。通过结合思维链推理过程,它在利用多种多模态大型语言模型时,相较于基线取得了显著改进。此外,它在各种具有挑战性的驾驶场景中展示了有效性、泛化能力和鲁棒性,提供了一种更高效、更有效的自动驾驶方法。

©️【深蓝AI】编译

本文由paper一作——Shuo Xing 授权【深蓝AI】编译发布!

论⽂题目:OpenEMMA: Open-Source Multimodal Model for End-to-End Autonomous Driving

论文作者:Aohan Zeng, Zhengxiao Du, Mingdao Liu, Lei Zhang, Shengmin Jiang, Yuxiao Dong, Jie Tang

论文地址:https://arxiv.org/pdf/2412.15208 

论文源码:https://github.com/taco-group/OpenEMMA

1、背景介绍

自动驾驶(AD)技术的迅速发展得益于人工智能、传感器技术和高性能计算的进步。然而,现实世界中不可预测的道路使用者、动态交通模式和多样化环境条件给AD带来很多的挑战。应对这些复杂性需要复杂的推理能力,使自动驾驶系统能够理解上下文信息、预测用户意图并做出准确的实时决策。传统上,自动驾驶架构采用模块化方法,专门组件处理感知、地图绘制、预测和规划等不同方面。但是,尽管这种分隔有助于调试和优化各个模块,但由于模块间通信错误和僵化的预定义接口,往往导致可扩展性问题,这些接口难以适应新的或不可预见的条件。

另一方面,端到端系统直接从传感器输入中学习驾驶动作,绕过符号接口的需求,进行整体优化。然而,这些系统通常高度专业化,并在狭窄的数据集上训练,难以在多样和复杂的现实场景中有效泛化。同时,多模态大型语言模型(MLLMs)可以解决此类问题。它们通过在广泛数据集上的广泛训练,提供了新颖的方法,包括全面的世界知识和通过思维链推理等机制的高级推理能力。Waymo发布的EMMA模型就是这一趋势的典范,展示了在感知、决策和导航整合方面的重大进展。然而,EMMA是非开源的。

为了解决像EMMA这样的封闭源模型的局限性,作者推出了OpenEMMA,它是一个开源的端到端自动驾驶框架,旨在使用公开可用的工具和模型复制EMMA的核心功能。与EMMA类似,OpenEMMA处理前置摄像头图像和文本历史自我车辆状态作为输入。驾驶任务被框定为视觉问答(VQA)问题,采用思维链推理引导模型生成关键对象的详细描述、行为洞察和元驾驶决策。这些决策由模型本身直接推断,提供了生成路径点所需的重要上下文。为了缓解多模态大型语言模型在物体检测任务中的已知局限性,OpenEMMA还成了一个专门优化用于自动驾驶场景的3D边界框预测的YOLO微调版本,显著提高了检测准确性。此外,通过利用多模态大型语言模型的现有世界知识,OpenEMMA能够生成可解释的人类可读输出,用于场景理解等感知任务,从而提高透明度和可用性。完整的管道和支持的任务如图1所示。

▲图1 | OpenEMMA 框架概览©️【深蓝AI】编译

主要贡献如下:

  • 本文提出OpenEMMA,它是一个开源的端到端多模态模型,用于自动驾驶,利用现有的开源模块和预训练的多模态大型语言模型,复制EMMA在轨迹规划和感知方面的功能。
  • 它在nuScenes数据集的验证集上进行了广泛实验,评估OpenEMMA在端到端轨迹规划中的表现,展示了其有效性和适应性。
  • 还发布了在OpenEMMA中使用的代码库、数据集和模型权重,供研究社区利用、改进和扩展该框架,推动自动驾驶技术的进一步进展。

2、方法精析 

OpenEMMA是一个计算高效的端到端自动驾驶(AD)系统,基于预训练的多模态大语言模型(MLLMs)\mathcal L,如图1所示,利用历史驾驶状态T和视觉驾驶场景I作为输入,预测未来轨迹P,并检测交通参与者。

2.1 CoT用于端到端轨迹规划

借助预训练的MLLMs的强大能力,本文将链式思维(Chain-of-Thought: CoT)推理过程整合到端到端的轨迹规划过程中。由于MLLMs是通过人类可解释的知识进行训练的,本文的MLLMs也生成人类可解释的知识。与之前直接在局部坐标中生成轨迹的方法不同,本文生成两个中间表示:速度向量S = {s_t},表示车辆速度的大小,以及曲率向量

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值