GPT-4 ENHANCED MULTIMODAL GROUNDING FOR AUTONOMOUS DRIVING

828 篇文章

已下架不支持订阅

本文提出了一种名为CAVG的视觉基础模型,用于自动驾驶汽车,它整合了文本、情感、视觉、上下文和跨模态编码器,与多模态解码器配合,利用GPT-4等大模型增强,提高在复杂环境中的命令理解和执行能力。在Talk2Car数据集上的实验显示,CAVG在有限数据下也能保持高预测准确性和效率,尤其在挑战性场景中表现出色。

本文是LLM系列文章,针对《GPT-4 ENHANCED MULTIMODAL GROUNDING FOR AUTONOMOUS DRIVING: LEVERAGING CROSS-MODAL ATTENTION WITH LARGE LANGUAGE MODELS》的翻译。

GPT-4增强的自动驾驶多模态基础:利用大型语言模型的跨模态注意力

摘要

在自动驾驶汽车领域,准确识别指挥官意图并在视觉环境中执行语言命令是一个重大挑战。本文介绍了一种复杂的编码器-解码器框架,该框架是为解决AV中的视觉基础而开发的。我们的上下文感知视觉基础(CAVG)模型是一个先进的系统,它集成了五个核心编码器——文本、图像、上下文和跨模态——和一个多模态解码器。这种集成使CAVG模型能够熟练地捕捉上下文语义并学习人类情感特征,并通过包括GPT-4在内的最先进的大型语言模型(LLM)进行增强。通过实现多头跨模态注意力机制和用于注意力调制的区域特定动态(RSD)层,增强了CAVG的架构。这种架构设计使模型能够有效地处理和解释一系列跨模态输入,从而全面了解口头命令和相应视觉场景之间的相关性。对Talk2Car数据集(一个真实世界的基准)的经验评估表明,CAVG在预测准确性和操作效率方面建立了新的标准。值得注意的是,即使在有限的训练数据(占整个数据集的50%至75%)下,该模型也表现出非凡的性能。该功能突出了其在实际AV应用中的有效性和部署潜力。此外,CAVG在具有挑战性的场景中表现出了显著的稳健性和适应性,包括长文本命令解释、弱光条件、模糊的命令上下文、恶劣的天气条件和人口稠密的城市环境。拟议模型的代码可在我们的Github上获得。

1 引言

2 相关工作

3 提出的模型

4 实验

已下架不支持订阅

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值