Drive as You Speak: Enabling Human-Like Interaction with Large Language Models in Autonomous Vehicle

Abstract

自动驾驶汽车的未来在于以人为本的设计和先进的人工智能能力的融合。未来的自动驾驶汽车不仅可以运送乘客,还可以与乘客互动并适应他们的需求,使旅程舒适、高效、愉快。在本文中,我们提出了一个新的框架,利用大语言模型(llm)来增强自动驾驶汽车的决策过程通过整合LLMs的自然语言能力和上下文理解、专业工具使用、协同推理以及与自动驾驶汽车上的各种模块的操作,该框架旨在将LLMs的高级语言和推理能力无缝集成到自动驾驶汽车中。拟议的框架有可能彻底改变自动驾驶汽车的运行方式,提供个性化的辅助、持续的学习和透明的决策,最终为更安全、更高效的自动驾驶技术做出贡献。

1. Introduction

最近,大型语言模型(Large Language Models (LLMs))引起了人们的极大关注。他们成功的关键在于他们处理广泛的基于单词的输入的卓越能力,包括提示、问题、对话和跨越不同领域的词汇,从而产生重要和连贯的文本输出。LLMs就像一个巨大的仓库,从大量的文本中获得丰富的信息和知识,就像人类的大脑一样。考虑到LLMs模拟人类大脑功能的能力,我们不禁要问:我们能否利用LLMs令人印象深刻的能力来彻底改变自动驾驶的未来?想象一下,你坐在一辆自动驾驶汽车里,想要安全地超过另一辆车。你所要做的就是发出命令:“超车”。此时,LLMs将迅速评估现有条件和安全聆听,并在推理之前提出问题,为您提供有关执行机动的可行性和建议行动的明智指导。此外,在全自动驾驶汽车的背景下,LLMs的能力甚至可以扩展到控制车辆并执行指示命令。

虽然LLMs有可能极大地提高驾驶员的便利性和驾驶体验,但一个重大挑战随之而来:LLMs缺乏对驾驶环境信息的理解。与人类不同,LLMs缺乏感知物理环境的内在能力。换句话说,这些模型不具备视觉感知周围世界并与之交互的能力。这使得LLMs在针对当前形势做出合理决策时面临挑战,可能导致次优结果甚至危险后果。

为了应对上述挑战,我们提出了一个观点,即LLMs可以作为自动驾驶汽车的决策“大脑”。与此相辅相成的是,自动驾驶汽车生态系统中的各种工具,包括感知模块、定位模块和车内监视器,都起到了汽车感官“眼睛”的作用。这种配置使LLMs能够克服不能直接访问实时环境信息的固有限制。通过接收来自感知模块的处理数据,LLMs可以促进明智的决策,从而显著提高自动驾驶汽车的性能。此外,车辆的动作和控制器作为它的“手”,执行来自LLMs决策过程的指令。

当比较有和没有集成LLMs的自动驾驶汽车时,很明显,后者提供了一系列引人注目的优势。这些优势扩展到功能和性能的各个方面:

•语言交互:LLMs支持驾驶员和车辆之间的直观通信,将交互从严格的命令转换为自然对话。


•上下文理解和推理:车辆LLMs提供了从交通法规和事故报告等不同来源增强的上下文理解,确保决策优先考虑安全和法规遵守。


•zero-shot计划:车辆中的LLMs可以在没有事先接触的情况下理解和推理不熟悉的情况,使车辆能够自信地驾驭未知的场景。


•持续学习和个性化:LLMs不断学习和适应,根据个人驾驶员的喜好定制他们的帮助,并随着时间的推移改善驾驶体验。


•透明度和信任:LLMs可以用简单的语言表达他们的决定,在技术和用户之间建立信任和理解的关键纽带。

2. Perspective: the Role of LLMs in Advancing Autonomous Vehicles

2. 视角:LLMs 在推进自动驾驶汽车中的作用

正如前面所述,我们已经确定LLMs 是自动驾驶系统的“大脑”,促进驾驶员的互动和决策,而有用的感官工具和驱动分别是车辆的“眼睛”和“手”。更具体地说,当驱动程序请求特定操作时,LLMs 提示相关模块提供已处理的数据,以便从环境中提取相关信息。通过将LLMs的语言分析与所选模块的处理感官输入相结合,LLMs可以做出明智的决定。如果根据先前的分析,该指令被认为是可行和安全的,LLMs 将发送相应的指令给车辆的控制器。这包括方向盘、油门踏板、刹车和其他控制元件等组件,使它们能够执行必要的操作。或者,如果操作被认为是不合适的,LLMs 将向驱动程序提供详细的解释,说明为什么所请求的操作不适合执行。

回顾本文开头的例子,当驾驶员发出超车命令时,LLMs 通过向感知模块查询相关处理信息来发挥作用。这包括目标车辆的距离和速度、自我车辆的速度、潜在车道的道路状况、其他车辆的存在及其在这些车道上的距离,以及来自地图系统的其他有用的导航信息。通过对提供的数据和给定命令的分析,llm决定是否执行驾驶员的请求。如果决定是肯定的,LLMs 随后将指令传达给管制员,指导下一步的行动。


在探索了LLMs 与自动驾驶汽车决策过程之间复杂的相互作用之后,我们将重点转移到更广泛的背景下,并基于我们之前对移动数字孪生[27]的研究,提出了以人为中心的自动驾驶汽车LLMs集成框架的概念。如图1所示,物理世界包括人类驾驶员、车辆和交通对象。在现实世界中,人类驾驶员是现实世界中的中心代理,在行驶道路时向llm发送命令和指令。交通环境包含各种因素,包括车辆、行人、交通信号灯、道路状况和交通锥,所有这些因素都导致了道路上运动和相互作用的复杂性。在LLMs 的指导下,车辆在这个生态系统中运行,通过控制器和执行器执行来自驾驶员或llm的命令。


虚拟世界包括LLMs 、内存和基本工具,包括感知模块、定位模块和舱内监视器。感知模块从传感器(包括外部摄像头、激光雷达和雷达)获取原始输入,并将这些数据处理成适合llm的格式。定位模块使用GNSS数据来确定车辆的精确位置。在车内,车内监视器采用内部摄像头、温度计和其他传感器来警惕地观察车内环境,防止分心、极端温度或不舒服的情况。llm是整个框架的核心,是它的核心情报。它们接收来自驱动程序的命令,随后启动对相关模块的查询以获取相关信息。此外,内存部分充当存储库,存储历史操作和驱动程序的首选项,使llm能够持续学习和增强。这些经验使llm能够在遇到类似的情况时做出类似的决策,从而增强系统的适应性和性能。记忆还包含地图和当地法律信息,使LLMs能够做出更明智的决定,以适应各种情况。

3. Review: Can LLMs Really Do This?

3.回顾:LLMs 真的能做到吗?

通过对理论基础和现实世界实施的全面回顾,我们试图解决一个基本问题:LLMs 是否真的能通过积极参与决策框架来为改进自动驾驶做出贡献?通过研究当前的研究状况和分析用例,本节旨在全面评估LLMs 能够在多大程度上为以人为本的自动驾驶领域带来的影响。

图1所示。以人为中心的自动驾驶汽车llm集成框架。

3.1. Adaptive Techniques and Human-Centric Refinements for LLMs

3.1. LLMs的自适应技术和以人为中心的改进

参数有效微调(PEFT)是一项关键技术,用于使预训练语言模型(LLMs)适应专门的下游应用[6,7,9,11,15]。Hu等人提出利用低秩分解矩阵来减少微调语言模型所需的可训练参数的数量。Lester等人探索了提示调优,这是一种使用习得的软提示调节语言模型的方法,与完全微调相比,它实现了具有竞争力的性能,并使模型能够重用于许多任务。这些PEFT技术为LLMs适应自动驾驶任务提供了有价值的工具。


基于人类反馈的强化学习(RLHF)[1,18,20,21,23]已经成为微调LLMs系统以更紧密地与人类偏好保持一致的关键策略。欧阳等人引入了一个人在循环过程来创建一个更好地遵循指令的模型。


Bai等人提出了一种无需人类标签就能训练无害AI助手的方法,以最少的人工输入更好地控制AI行为。这些方法对于开发自动驾驶应用的LLMs具有重要的前景,因为它们可以在两个维度上做出贡献。首先,他们可以确保LLMs避免做出可能违法或不道德的决定。


其次,这些方法使LLMs能够根据用户偏好不断调整和调整决策过程,从而增强对自动驾驶汽车的个性化和信任。


基于llm的自动驾驶应用也可以受益于先进的提示技术[3,13,26,28,29]。思维链提示[28]提高llm执行复杂推理的能力。Gao等人提出了一种使用llm读取自然语言问题并生成程序作为中间推理步骤的方法。Yao等人提出了一种新的提示技术,允许llm决定如何与外部api交互。这些方法为自动驾驶应用的llm开发提供了坚实的基础,具有两个显著的好处。首先,它们极大地增强了LLMs的推理能力,特别是在复杂的、多步骤的场景中。其次,这些技术提高了LLMs的适应性和通用性,这是自动驾驶系统与各种工具和数据源接口的关键属性。

3.2. Advancements in LLMs: Implications for Autonomous Driving Decision-Making

3.2. LLMs的进展:对自动驾驶决策的影响

最近的研究表明,LLMs可以在大多数常识性任务中表现良好,这意味着它有可能在自动驾驶场景中做出明智和可行的决策。在自动驾驶的背景下,llm的应用为研究提供了一个迷人的和潜在的变革方向。最近的调查揭示了LLMs可以以多种方式深刻影响自动驾驶汽车的前景。


例如,[16]进行的研究强调了注入法律知识的人工智能的前景,提供了避免自动驾驶场景中违法行为的潜力,从而有助于建立更安全的人工智能驱动环境。此外,[30]表明LLMs具有从当地法律和事故报告中学习的能力,并有效地有助于降低事故率,从而提高自动驾驶的安全性。


b[5]对LLMs在自动驾驶决策中的应用进行了显著的探索。他们的研究引入了PaLM模型,证明LLMs表现出有效处理复杂推理任务的能力,有趣的是,超越了普通人的表现。这一发现具有重大意义,暗示LLMs在应对复杂场景、做出明智判断方面的卓越能力,并可能为自动驾驶汽车的最佳决策奠定基础。


[19]中强调的工作展示了利用大型语言模型以自然语言有效地存储经验,形成了将历史数据集成到我们的体系结构中的基本方法。


LLMs的自适应能力以各种方式展示。[14]强调LLMs在零概率推理方面的熟练程度,使他们能够处理新颖和不熟悉的情况,这是自动驾驶汽车在动态环境中运行的重要特征。b[6]的研究表明,LLMs可以通过微调来提高性能,特别是在训练数据有限的任务中。


此外,LLMs在交通运输和机器人领域都显示出巨大的潜力,[31]和[24]分别突出了这一点。它们揭示了LLMs在zero-shot计划和交互式对话等任务中的卓越能力,甚至促进了与基于感知-行动的API库的交互,这一属性符合自动驾驶汽车的需求。


此外,工作[25]证明了LLMs具有持续学习的潜力,这对于适应不断变化的路况并随着时间的推移提高性能至关重要。


[8]的研究介绍了能够吸收真实世界传感器数据的具身语言模型,从而弥合了感知和语言之间的差距。这一发展为自动驾驶汽车的潜在进步奠定了基础,在自动驾驶汽车中,LLMs可以处理感官输入,理解周围环境,从而做出更明智的决定。在这些见解的基础上,[4]、[32]、[29]、[22]和[12]的研究进一步丰富了我们对LLMs能力的理解,强调了他们在决策、推理以及推理和行动协同方面的潜力。

图2。与ChatGPT-4就自动驾驶汽车进行一般问答。

4. Experiment: Decision-Making and Motion Planning with ChatGPT-4

4. 实验:基于ChatGPT-4的决策与运动规划

为了更深入地了解LLMs在自动驾驶任务背景下的实际能力,我们开始了涉及现实世界决策场景的深刻探索。这一全面的案例研究令人信服地展示了LLMs如何通过利用ChatGPT-4[17]的潜力来复制决策过程,从而有效地增强自动驾驶汽车。我们的调查分为两个不同的阶段。最初,我们向GPT-4提出了与自动驾驶概念相关的查询,它揭示了如何将语言模型无缝集成到自动驾驶中。随后,我们设计并呈现真实的现实情况来评估LLMs的决策能力。本节介绍对本案例研究的深入理解,包括与GPT4的详细对话,其中突出了我们的发现。这一分析强调了利用LLMs增强自动驾驶的实际意义。

图3。复杂驾驶场景下LLMs辅助决策与运动规划实验。Ego车辆及其轨迹被标记为橙色;当前车道前方车辆及其行驶轨迹为蓝色;相邻车道上的车辆及其轨迹显示为绿色

在我们与ChatGPT的探索中,我们首先询问了一些关于自动驾驶汽车中LLMs的一般概念问题,旨在发现LLMs在推进自动驾驶未来方面的真正潜力图2。这些回答表明,LLMs在沟通车辆和乘客之间的互动方面具有很强的能力。从回答来看,很明显,LLMs可以解释复杂的驾驶场景,车辆做出的决定,甚至各种自主模块的技术。一个特别重要的观察结果是LLMs在处理大量数据,然后将这些数据转化为实时的、可理解的反馈方面的优势。这种反馈不仅与驾驶状态有关,还与核心自主功能有关,包括感知模块的利用和运动规划的选择。此外,该模型展示了车辆间通信能力的增强,以及关键的故障排除能力。这种能力不仅可以培养信任,还可以通过解释自主操作的复杂决策来开发用户体验。

正如我们在图3中看到的,我们模拟了一个真实世界的驾驶场景,其中自动驾驶汽车配备了大型语言模型(LLMs)来帮助决策和运动规划。该车辆在印第安纳州的一条双车道高速公路上,以96公里/小时的速度从东向西行驶。它落后于另一辆以相同速度行驶的车辆,但只有8米远,这个距离不是安全的最佳距离。

在相邻的左侧车道上,注意到另外两辆车:一辆以112公里/小时的速度行驶在前方30米处,另一辆以104公里/小时的速度行驶在后方40米处。司机非常专心,一名乘客系着安全带。

LLMs的任务是处理来自感知模块(车速和距离)、定位模块(道路和环境条件)和舱内监控系统(驾驶员的注意力水平和安全带等安全措施)的多层数据。LLMs制定了一个全面的9步运动计划,该计划将安全放在首位,同时有效地执行驾驶员超车的命令。

在实验场景中,大型语言模型(LLMs)不仅通过收集和分析数据,还通过应用上下文相关的推理层来展示其高级推理能力。LLMs评估周围车辆的速度和距离、驾驶员的注意力状态,甚至交通状况,以确定最安全和最有效的超车轨迹。

这种动态考虑多种因素的实时推理能力极大地提高了道路安全和运营效率。LLMs不仅遵循预定义的规则,还根据独特的环境调整决策,突出了它们在增强自动驾驶未来方面的潜力。

此外,学习管理系统的语言互动能力对建立信任至关重要。当司机命令“超越前面的车辆”时,LLMs评估各种因素,并向司机传达他们的推理。这种透明的交互不仅提高了安全性,还增强了对车辆自主能力的信心。

LLMs还可以从存储模块中访问以前的数据和用户偏好,从而提供更加个性化的驾驶体验。例如,在实验的背景下,系统可以回忆起司机的典型舒适度,包括超车速度、跟车距离和车道偏好。这些信息可以影响LLMs如何解释和执行类似“超越前面的车辆”的命令,确保该操作符合驾驶员过去的行为和舒适区。因此,LLMs的记忆驱动个性化能力不仅提高了用户满意度,而且有助于更安全、更可预测的自动驾驶场景。

另一个重要优势是增强透明度和信任。当车辆做出复杂的决定时,例如在高速双车道公路上超车,乘客和司机自然会有疑问或担忧。在这些情况下,LLMs不仅仅执行任务,还阐明决策过程中每一步背后的推理。通过以可理解的语言提供实时、详细的解释,LLMs揭开了车辆动作和底层逻辑的神秘面纱。这不仅满足了人类对自主系统如何工作的天生好奇心,还在车辆和乘客之间建立了更高水平的信任。

此外,在印第安纳州高速公路上复杂的超车过程中,“zero-shotting”的优势尤为明显。尽管LLMs以前没有遇到过这种特定的情况——不同的速度、距离,甚至驾驶员的警觉性——但它能够使用其通用训练来安全有效地生成超车动作的轨迹。这确保了即使在动态或罕见的情况下,系统也可以在保持用户知情的同时做出合理的判断,从而建立对自主技术的信任。

5. Conclusion

总之,我们的论文为将大型语言模型(LLMs)集成到自动驾驶汽车生态系统中提供了一个全面的框架。我们强调了LLMS如何提供高级推理能力,使自主系统更加灵活,对复杂的现实世界场景做出更好的响应。此外,通过利用LLMs的功能,我们可以丰富人车交互,提供更可靠、更直观和更具响应性的界面。与缺乏语言理解能力的传统自主系统不同,LLMs可以处理复杂的请求,提供实时反馈和全面的解释,并在复杂或罕见的驾驶场景中帮助决策。这表明,在未来,LLMs可以显著提高自动驾驶汽车的效率、安全性和以用户为中心的设计。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

技术宅学长

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值