BuboGPT:首个可以定位的视觉、音频和语言多模态对话模型发布!

BuboGPT是一个多模态语言模型,具备视觉定位能力,能够在视觉、音频和语言间进行细粒度交互。通过基于SAM的视觉定位模块和两阶段训练方案,BuboGPT在多模态理解和视觉定位方面表现出色,能处理对齐或不对齐的模态组合输入。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

论文链接:https://arxiv.org/abs/2307.08581

开源代码:https://bubo-gpt.github.io/

引言

LLM 在通过语言与人类进行交互方面表现出卓越的能力,尤其是在使用遵循指令的数据时。 LLM 的最新进展,例如 MiniGPT-4, LLaVA 和 X-LLM,通过融合图像、视频和语音等多模态输入进一步扩大了它们的能力。尽管这些LLM 在生成给定模态信号的精确详细的语言理解方面表现出有效性,但它们放弃了对输入的特定部分进行定位的能力,因此只构建了粗粒度的映射。然而,文本与其他模态之间的明确和有信息对应关系不仅可以改善用户体验,还可以帮助扩展多模态 LLM 的应用场景。

因此,本文提出了 BuboGPT ,这是一个带有视觉定位的多模态 LLM,可以在视觉、音频和语言之间进行跨模态交互,提供对视觉对象和其他给定模态的细粒度理解。BuboGPT的贡献有两个方面: 

    1)一个基于 SAM 的即插即用的视觉定位模块,用于提取句子中的实体并找到图像中相应的掩码。

    2)一个两阶段的训练方案和指令数据集,用于赋予联合文本-图像-音频理解的能力。

    实验证明,BuboGPT在与人类进行交互时具有令人印象深刻的多模态理解和视觉定位能力。当提供任意模态组合(无论是对齐还是不对齐)时,它的性能始终表现出色。

问题背景

大型语言模型(LLMs)通过在精心策划的数据集上进行指导调整(instruct tuning)取得了显著进展,并展示了在少样本和零样本学习方面的有希望的能力。为了利用 LLMs 在语言以外领域的潜力,一些最近的研究成功地将 LLMs 与更多的输入信号(例如图像、视频、语音和音频)相连接,构建了强大的多模态对话机器人。然而,这些模型通常在进行理解时没有深入挖掘视觉对象与其他给定模态之间的细粒度关系。

概述

本文提出了 BuboGPT ,这是将视觉对齐引入 LLMs 的首次尝试,通过将视觉对象与其他模态相关联,实现文本、视觉和音频的联合多模态理解和对话。

为此,首先基于 SAM构建了一个现成的视觉对齐流程,以探索不同视觉对象和模态之间的细粒度关系。该流程由三个模块组成,即标记模块、对齐模块和实体匹配模块。标记模块是一个经过预训练的模态,可以生成与输入图像相关的多个文本标签。基于 SAM 的对齐模块进一步将每个标签在图像上定位到语义掩膜或边界框。然后,实体匹配模块利用 LLMs 的推理能力从标签和图像描述中检索匹配的实体。

通过这种方式,使用语言作为桥梁将视觉对象与其他模态相连接。然后,为了实现任意组合输入的多模态理解能力,采用了类似于 Mini-GPT4 的两阶段训练方案。具体来说,使用 ImageBind 作为音频编码器,BLIP-2 作为视觉编码器,Vicuna作为 LLM。在第一阶段,通过学习一个 Q-former 将视觉或音频特征与图像或音频字幕数据集上的语言进行对齐。在第二阶段,在一个高质量的指令跟随数据集上进行多模态指导调整。观察到构建这个数据集对于 LLMs 识别模态是否

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值