用LLMs驾驶:融合目标级向量模态实现可解释自动驾驶

作者 | 黄浴  编辑 | 汽车人

原文链接:https://zhuanlan.zhihu.com/p/659556537

点击下方卡片,关注“自动驾驶之心”公众号

ADAS巨卷干货,即可获取

点击进入→自动驾驶之心【大模型】技术交流群

本文只做学术分享,如有侵权,联系删文

还是创业公司Wayve10月3号的自动驾驶论文“Driving with LLMs: Fusing Object-Level Vector Modality for Explainable Autonomous Driving“。

cbdd589afd2fffaa655d5c7016e16882.png

大语言模型(LLM)在自动驾驶领域显示出了前景,尤其是在泛化和可解释性方面。本文引入了一种独特的目标级多模态LLM架构,该架构将矢量化的数字模态与预训练的LLM相结合,提高对驾驶情况下上下文的理解。本文还提出了一个新的数据集,其中包括来自10k驾驶场景的160k个问答QA对,与强化学习(RL)智体收集的高质量控制命令和教师LLM(GPT-3.5)生成的问答配对。作者设计了一种独特的预训练策略,用矢量字幕语言数据将数字矢量模态与静态LLM表征对齐。作者还介绍了驾驶QA的评估指标,并展示了LLM驾驶员在解释驾驶场景、回答问题和决策方面的熟练程度。与传统的行为克隆相比,该文表现出基于LLM的驾驶动作生成的潜力。

为了生成基于语言的现实驾驶数据集,用一个定制的逼真2D模拟器,该模拟器具有驾驶场景的程序生成功能。用RL智体,其通过驾驶场景的目标级真值表示来解决模拟场景。该方法用基于注意的神经网络架构将环境的矢量表示映射到车辆动力学的动作。该模型用近策略优化(PPO)进行优化[40]。随后,在随机生成的交通条件下,从15个不同的虚拟环境中收集了连续的驾驶数据。此集合包括一个用于预训练的100k大小数据集,一个用于QA标注和微调的10k大小集,以及一个专门用于评估的1k大小集。

如图是LLM驾驶体系结构概述,演示如何使用来自驾驶模拟器的目标级矢量输入通过LLM预测动作。

579f4b5fde9f1da0963267e6d6d96eb6.png

在该框架中,目标是用结构化语言生成器将矢量表示转换为语言,以便于将矢量表示固定到LLM中。由于目标级矢量包含语义上重要的属性,如汽车和行人的数量、各自的位置、方向、速度、边界框和其他属性,故此使用结构化语言生成器(lanGen)函数来制作从矢量空间派生的伪语言标签,如下所示:

a9af5fb2da02b4941a215166b3f9b052.png

在该函数中,变量vcar、vped、vego和vroute分别表示与汽车、行人、自我车辆和路线相对应的矢量信息。可选术语orl对应于RL智体的输出,包括用于引导动作推理过程额外的注意和动作标签。注意标签是从类似于[41]的RL策略注意层中收集的。

该lanGen函数能够将矢量表示转换为人类可读的语言标题。它对当前驾驶场景进行了全面的叙述,包括智体的观察、当前状态及其规划行动。这种全面的上下文基础使LLM能够以人类可解释和理解的方式进行推理和构建适当的反应。

orl是否包含是可选的,要生成两个不同版本的伪标签来满足不同的要求:1)无注意/动作:在表征预训练阶段使用,其中不需要推断注意和动作。2) 注意/动作:在微调阶段用GPT进行VQA标记。这使GPT能够提出有关注意和动作的具体问题,使驾驶LLM智体能够推理注意和动作。

大量的数据是实现语言模型问答能力的关键。当LLM引入一种新的模态时,这一点变得尤为重要;在这种情况下,有一个与模态输入相关的高质量问答数据集是至关重要的。研究表明,用ChatGPT标注的数据在文本标注任务的性能方面超过了众包工作者[42]。受Self Instruction[43]和LLaVA[44]等研究的启发,用GPT生成驾驶QA数据集。该数据集以结构化语言输入为条件,作为矢量的代表。

具体来说,要求GPT模仿认证专业驾驶教练的角色,为学生提供问题和答案。要提供基本的驾驶规则作为预提示,涵盖交通信号灯变换和驾驶侧等方面,因为在在一个左撇子驾驶的国家。考虑到lanGen生成的语言描述提供当前驾驶场景,所以让GPT为每个场景创建16组随机问答。还包含了一些引导去生成与动作相关的问题说明,因此可以使用正则表达式轻松解析这些问题,评估动作预测任务。

为了减少幻觉,制定了简单的护栏(guardrail)规则。指示GPT包含一个无法从观察输入中推断的驾驶相关问题。如果面临这样的问题,模型的回答应该类似于“我无法根据我的观测结果回答这个问题”,防止模型在提供的矢量观测中想象不存在的目标,参考开源代码:https://github.com/wayveai/Driving-with-LLMs。

此外,还包括了一个与驾驶无关的随机问题,指示模型回答“作为一名人工智能驾驶员,你问的问题超出了我的范围,但我可以尝试回答。”然后模型会正常回答问题,从而保持语言模型作为通用助手的通用性。

训练LLM驾驶员包括在语言模型的背景下将其表述为驾驶问答(DQA)问题。该公式的关键是将目标级向量模态与预训练的LLM相结合,创建一个能够解释语言和向量输入并与之交互的多模态系统。

用两阶段过程来训练模型,将目标级向量模态有效地融合到LLM驱动程序中。第一阶段,将向量表示固定为可以由LLM解码的嵌入。这是通过冻结语言模型并优化矢量编码器和矢量transformer的权重来实现的。第二阶段,根据DQA任务对模型进行微调,训练其回答与驾驶相关的问题,并根据其当前对环境的理解采取适当的行动。

如图所示,该驾驶模型建立在三个关键组件上:矢量编码器、Vector Former和带有一个低秩自适应(LoRA)[10]模块的冻结LLM(取LLaMA-7b)。

d36c91dc862836f1a540cc700ac3abf7.png

由于需要大量的数据和计算资源,将一种新模态集成到预训练的大型语言模型(LLM)中带来了重大挑战。这项工作提出了一种方法,用结构化语言将矢量空间与语言嵌入连接起来,特别关注数字token。

在预训练阶段,用冻结的语言模型,同时端到端地训练整个框架,优化矢量编码器和矢量transformer(V-former)的权重。这样的优化过程能够将矢量表示有效地嵌入到可以由LLM直接解码的嵌入中。需要注意的是,在这个预训练阶段,只使用感知结构化的语言标签,而避免训练涉及推理的任务,例如动作预测(车辆的控制命令)和智体的注意预测(专家在哪里关注空间注意)。这是因为现阶段的重点仅在于表征训练,其目标是避免过早地将任何推理组件集成到V-former中。

预训练过程用模拟器中收集的100k个问答对进行。此外,在每个epoch中,采样具有均匀分布随机值的200k个矢量,全面探索矢量空间及其相关语义,增强鲁棒表征的学习。采用lanGen方法,自动标注伪矢量字幕数据。在预训练阶段,优化矢量编码器和V-former权重,惩罚矢量字幕结果中的误差,将矢量空间转换为LLM可理解的语言嵌入。

通过这种方法,能够有效地将目标级向量模态合并到预训练的LLM中,这为微调阶段提供了一个良好的起点。

在预训练阶段之后,将可训练的LoRA模块引入LLM,并在收集的驾驶QA数据上以端到端的方式优化权重Vector Encoder、Vector Former和LoRA模块。

为了训练LLM驾驶员输出准确的驾驶动作,在VQA数据集中添加了某些动作触发问题。当被问及这些问题时,这些问题要求智体生成特定格式的操作。例如,像“在这种情况下,你将如何驾驶以及为什么?”这样的问题需要智体根据矢量输入推断动作。然后,用一种简单的语言-动作的落地策略和正则表达式匹配,提取在模拟器中控制汽车所需的动作。为了确保模型对这些重要问题给予足够的关注,用不同的表达方式对动作触发问题进行上采样,例如:

  • “在这种情况下,打算如何驾驶?”

  • “正在采取什么行动?”

  • “在这种情况下怎么开车?”

  • “针对这种情况,计划采取什么行动?”

在10000个场景中完善了预存在的模型,每个场景包含16个驾驶QA实体,以及额外的矢量字幕数据和动作预测QA对。结果是,在给定当前驾驶场景的目标级向量的情况下,驾驶LLM智体能够对其行为和任何与驾驶相关的问题进行推理。

附录:作者给出一个行为克隆的Perceiver-BC框架做比较如下。

0da0a776315c689fe19b04c3a8335d4e.png

① 全网独家视频课程

BEV感知、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测点云3D目标检测目标跟踪Occupancy、cuda与TensorRT模型部署协同感知语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

8f21dff08e3d1a4b719d05dbe772e0ca.png 视频官网:www.zdjszx.com

② 国内首个自动驾驶学习社区

近2000人的交流社区,涉及30+自动驾驶技术栈学习路线,想要了解更多自动驾驶感知(2D检测、分割、2D/3D车道线、BEV感知、3D目标检测、Occupancy、多传感器融合、多传感器标定、目标跟踪、光流估计)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、AI模型部署落地实战、行业动态、岗位发布,欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频,期待交流!

be1614f7305a9b1bf4fc9e5c9bff79ca.png

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、多模态感知、Occupancy、多传感器融合、transformer、大模型、点云处理、端到端自动驾驶、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流等方向。扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

9493347936f13e4ea8b6079eef48a661.jpeg

④【自动驾驶之心】平台矩阵,欢迎联系我们!

dc61e6e5556b8714a9e6ee00e5b38554.jpeg

<think>好的,用户需要撰写关于多模态大语言模型(MM-LLMs)在自动驾驶中应用的顶级期刊论文,重点涉及行为规划状态对齐与语言指令融合的协同优化。首先,我需要理解用户的需求,明确核心问题:如何基于MM-LLMs设计自动驾驶闭环决策框架,特别是这两个关键技术的协同优化方法,并确保论文符合顶级期刊的标准,具有创新性。 首先,我需要回顾多模态大模型在自动驾驶中的应用现状。根据引用[3],MM-LLMs利用现有的预训练单模态模型,通过多模态连接和协同推理,可以有效降低计算成本。这对自动驾驶来说非常重要,因为自动驾驶需要处理视觉、雷达、语言等多种模态数据,传统方法可能计算开销大。因此,采用MM-LLMs作为基础架构是合理的。 接下来,用户提到的行为规划状态对齐,可能涉及如何将车辆感知的环境状态(如传感器数据)与行为规划模块(如路径规划、避障)进行对齐。这需要跨模态的映射,如引用[4]提到的跨模态生成,可能需要将视觉数据转化为语义表示,与规划模块的决策逻辑对齐。同时,状态对齐需要确保不同模态的数据在时间、空间上的一致性,比如同步摄像头和激光雷达的数据,避免信息滞后或错位。 然后是语言指令融合的问题。自动驾驶系统可能需要接收自然语言指令,比如导航目的地或调整驾驶风格。如何将这些指令与系统的行为规划结合起来?这里可能需要多模态融合技术,如引用[2]提到的多流多模态编解码结构,处理部分匹配的信息。例如,用户的语音指令“在下一个路口右转”需要与实时的道路环境数据结合,生成相应的驾驶策略。此外,引用[3]中的指令调优(IT)阶段可能用于优化模型对人类意图的理解,确保指令与行为规划的一致性。 协同优化方法方面,可能需要设计联合训练策略,同时优化状态对齐和指令融合的损失函数。例如,在训练过程中,同时最小化状态预测误差和指令执行误差,使两者相互促进。另外,引用[1]提到的提示工程和思维链技术可能有助于设计更有效的训练提示,引导模型在处理多模态数据时保持逻辑连贯。 关于闭环决策框架的设计,可能需要整合感知、规划、控制模块,利用MM-LLMs作为核心处理单元。例如,感知模块处理多模态输入,生成环境状态表示;规划模块结合状态和语言指令生成驾驶策略;控制模块执行策略并反馈效果,形成闭环。引用[3]中的多模态预训练和指令调优可以在此框架中应用,提升模型的对齐能力和泛化性。 在论文撰写方面,需要突出创新点,比如新的协同优化方法、高效的跨模态对齐机制,或者在真实场景中的验证结果。同时,实验部分需要对比现有方法,证明所提框架的优越性,如决策准确率、响应时间等指标。此外,引用顶级期刊中相关工作的讨论,展示对领域前沿的把握,如引用[2]中的多流结构和自监督学习,或引用[4]的跨模态生成技术。 可能遇到的挑战包括多模态数据的异构性、实时性要求,以及如何有效评估协同优化的效果。需要设计合理的实验,可能包括仿真测试和实际路测,收集充足的数据支持结论。此外,理论分析部分可能需要探讨模型收敛性、泛化能力等,增强论文的理论深度。 最后,确保论文结构符合期刊要求,包括引言、相关工作、方法、实验、结论等部分,突出方法的创新性和实验结果的有效性。同时,语言要严谨,避免夸大,数据需真实可靠,图表清晰,引用规范。可能还需要考虑伦理和安全问题,特别是自动驾驶系统的可靠性和安全性,这在顶级期刊中尤为重要。</think>基于您的研究方向,我将从技术框架设计、方法论创新、论文结构三个方面提供分步指导,并结合多模态大语言模型(MM-LLMs)特性提出创新性解决方案: ### 一、闭环决策框架设计(技术架构) 1. **多模态感知层**:采用多流编码器处理 $$V^{t} = f_{vis}(I^{t},P^{t}), \quad T^{t} = f_{text}(L^{t}), \quad S^{t} = f_{sensor}(R^{t},L^{t})$$ 其中$I^t$为视觉输入,$P^t$为点云数据,$L^t$为语言指令,通过引用[2]所述的多流结构实现异构数据处理[^2] 2. **状态对齐模块**: - 时空对齐:设计Transformer-based Cross-Modal Attention $$ \alpha_{ij} = \text{softmax}(\frac{Q_vK_t^T}{\sqrt{d_k}}) $$ 其中$Q_v$为视觉特征查询向量,$K_t$为文本关键向量实现像素级语义关联[^3] 3. **指令融合机制**: - 分层融合策略: ```python class InstructionFusion(nn.Module): def forward(self, state, instruction): coarse_fusion = cross_attention(state, instruction) # 粗粒度对齐 fine_fusion = gated_fusion(coarse_fusion, state) # 门控细粒度融合 return residual_connection(fine_fusion) ``` 采用引用[3]的指令调优方法论实现意图对齐[^3] ### 二、协同优化方法(方法论创新) 1. **双目标优化函数**: $$ \mathcal{L} = \lambda_1 \underbrace{\mathbb{E}_{(s,a)}[-\log \pi(a|s)]}_{\text{行为规划}} + \lambda_2 \underbrace{\text{KL}(q(z|x)\|p(z|y))}_{\text{模态对齐}} $$ 引入动态权重调整策略: $$ \lambda_i^{t} = \sigma(\frac{\mathcal{L}_i^{t-1}}{\sum \mathcal{L}_j^{t-1}}) $$ 2. **混合训练策略**: - 阶段一:单模态预训练(引用[3]的PT阶段) - 阶段二:多模态对齐训练(设计3级课程学习) - 阶段三:闭环强化学习(构建驾驶模拟器REWARD函数) ### 三、论文创新点提炼 1. **理论创新**: - 提出"状态-指令耦合度"定量指标: $$ \gamma = \frac{\mathbb{I}(S;L)}{\sqrt{H(S)H(L)}} $$ 用于评估多模态对齐质量[^4] 2. **技术创新**: - 开发混合记忆增强架构(见图1): ``` [视觉编码器] -> [短期记忆缓存] ↓ [语言解码器] ← [状态对齐模块] ↑ [驾驶策略网络] ← [长期记忆池] ``` ### 四、论文结构建议 1. **引言部分**: - 突出解决"语义鸿沟"和"指令歧义"两大挑战 - 引用[1]强调大模型调教的重要性[^1] 2. **实验设计**: - 基准测试:CARLA Leaderboard + nuScenes数据集 - 对比指标:MPD(任务完成度)、SOTIF(功能安全度) 3. **讨论部分**: - 分析模块贡献度(使用SHAP值) - 讨论计算效率(FLOPS vs. 推理延迟) ###
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值