腾讯&南大 最新联合发布|VITA:首个开源交互式全能多模态大模型!

论文链接:

https://arxiv.org/pdf/2408.05211

代码链接:

https://github.com/VITA-MLLM/VITA

简介

GPT-4o 的多模态能力和互动体验在实际应用中具有重要意义,但开源模型在这两方面的表现普遍较弱。为此,本文提出了 VITA,首个开源的多模态大语言模型(MLLM),能够同时处理和分析视频、图像、文本及音频,同时具备高级的多模态交互体验。基于 Mixtral 8×7B 语言模型,VITA 扩展了中文词汇并进行了双语指令调优,并通过多任务学习赋予视觉和音频处理能力。实验表明,VITA 在多种单模态和多模态基准测试中表现优异,同时显著提升了自然的人机交互体验。

VITA 引入了特殊的状态标记及训练策略,以适应不同的交互场景。采用“双路模型”部署方案,一部分处理用户查询,另一部分实时监测环境输入并更新响应,从而实现非唤醒交互和音频中断交互等功能。尽管 VITA 与封闭源模型相比仍有改进空间,它为开源社区探索多模态理解与交互的一体化发展奠定了基础,具有开创性意义。

研究动机

VITA 的功能和架构分别如图 1 和图 2 所示

如图1所示,传统的音频交互需要预先定义的唤醒词,例如说“嗨!每次提问时“Siri∼”,或者控制输入问题音频的按钮(限制1)。当模型生成输出时,人机交互总是被阻塞,因为之前的系统只能顺序响应输入查询(限制2)。相比之下,一方面,与以前音频、文本和视觉总是分开的方法不同,VITA 端到端地支持这些模式。另一方面,VITA 对多模态交互做出了两个贡献。非唤醒交互:VITA自动过滤背景噪音,如非查询人声,从而无需唤醒词和按钮。音频中断交互:如果用户因另一个问题而中断,生成过程将暂停,模型立即响应最新的查询。

如图2所示,VITA能够处理纯文本/音频形式的输入,以及与文本/音频结合的视频/图像形式的输入。此外,为不同的查询输入设置不同的状态标记。<1> 对应于有效的查询音频,例如“世界上最大的动物是什么?”,我们期望模型对此做出响应。<2> 对应于嘈杂的音频,例如环境中有人叫我吃饭,我们希望模型不会回复。<3>对应查询文本,即用户以文本形式给出的问题。在训练阶段,我们尝试训练模型自动区分不同的输入查询。在部署阶段,通过<2>我们可以实现非唤醒交互。在此基础上,我们进一步介绍了音频中断交互的双工方案。两个模型同时运行,其中生成模型负责处理用户查询。当生成模型开始工作时,另一个模型监视环境。如果用户因另一个有效的音频查询而中断,则监控模型会聚合历史上下文以响应最新的查询,而生成模型将暂停并调整以进行监控,即两个模型交换身份。

论文贡献

  • 开发了一个开源高性能多模态基础模型,同时支持中英文视频、图像、文本和音频输入。该模型接受纯文本/音频输入或视频/图像与文本/音频输入相结合。

  • 设计了一套全面的训练流程,包括提升LLM的中文能力、构建多模态训练数据以及多阶段的训练流程。作为先行者,VITA在自然多模态人机交互领域进行了初步探索。通过引入状态 token,模型可以自动识别输入音频的类型,实现非唤醒交互。同时,双工方案使得实现音频中断交互成为可能。

  • 完全开源VITA模型、训练代码和推理部署框架,旨在促进研究社区的进步。

VITA

如图3所示,VITA的整体训练流程由三个阶段组成:LLM指令调优、多模态对齐和多模态指令调优。VITA的开发也是重要的一部分。

第一阶段LLM指令调优通过扩大语言模型Mixtral 8×7B的词汇量,并利用高质量的双语文本语料库进行微调,增强语言模型Mixtral 8×7B,从而达到中英文的熟练程度。第二阶段多模态对齐将各个编码器与 LLM 连接起来以处理各种模态。通过积累大量高质量多模态数据,我们将文本特征空间与视频、图像和音频特征空间同步。最后阶段的多模式指令调优允许模型遵循文本或音频指令来理解图像或视频。专门设计的状态令牌用于区分输入查询的类型,方便后续的多模态人机交互。

LLM 指令调优

Mixtral 8x7B1 是具有稀疏专家混合 (SMoE) 架构的代表性 LLM。它的表现属于顶级开源LLM,使其成为本文工作的理想起点。观察到官方 Mixtral 模型在理解中文方面表现出有限的能力。为了注入双语(中文和英文)理解能力,文中用中文拓宽了基础模型的词汇量,将词汇量从 32, 000 增加到 51, 747。这种扩展还可以减少同一文本下的 token 数量,从而提高推理效率。扩展词汇到位后,我们使用 500 万个合成双语语料库进行纯文本指令调优。

多模态对齐

在这个阶段,目标是弥合文本和其他模态之间的表示差距,从而为多模态理解奠定基础。

视觉模态 采用 InternViT-300M-448px 作为视觉编码器,它接受 448×448 图像作为输入,在使用简单的两层 MLP 视觉连接器后生成 256 个标记。对于高分辨率图像输入,实施动态修补策略来捕获局部细节。视频被视为图像的特殊情况。如果视频长度小于4秒,统一采样4帧。如果视频长度在 4 到 16 秒之间,每秒采样一帧。对于长度超过16秒的视频,统一采样16帧。为了防止引入过多的视觉标记,不对视频的各个帧执行动态修补。文中仅在视觉对齐阶段训练视觉连接器。除了纯文本部分。另外,在这个阶段不使用音频问题。

音频模态 输入音频最初通过梅尔滤波器组块进行处理。该模块将音频信号分解为梅尔频率范围内的各个频带,模仿人类对声音的非线性感知。随后,利用 4×CNN 下采样层和 24 层 Transformer,总共 341M 个参数来处理输入特征。采用简单的两层 MLP 作为音频-文本模态连接器。最后,每 2 秒的音频输入被编码为 25 个token。

对于其中一项对齐任务,选择了自动语音识别(ASR)。选用的数据集包括 Wenetspeech,其中包含超过 10,000 小时的多域语音识别数据,主要关注中文任务。同样,Gigaspeech也包含 10,000 小时的高质量音频数据,其中大部分数据针对英语语音识别任务。另一个任务是音频字幕,它依赖于 Wavcaps 的 AudioSet SL 子集。该数据集包含 400K 音频剪辑及其相应的音频字幕。在对齐过程中,音频编码器和连接器都会被训练。

多模态指令调优

在这个阶段,对模型进行指令调优,以增强其指令跟随能力,无论是文本还是音频。

根据上一节构建的问答对,模型需要区分三种类型的查询:

  • 查询音频:问题由音频发起。

  • 嘈杂的音频:输入是音频,但不包含问题。

  • 查询文本:问题由文本发起。

基于这些查询类型,设计了三个状态标记<1>、<2>和<3>。在训练阶段,在答案的开头插入相应的状态标记,使模型能够灵活处理不同的交互行为。具体来说:

  • 状态标记<1>表示问题输入是查询音频。在这种情况下,模型的输出需要以文本或 TTS 工具转换的语音形式呈现给用户。

  • 状态标记<2>表示问题输入是噪声音频。该模型应输出 EOS 代币作为终止符。然而,我们观察到在训练期间突然终止输出会显着降低性能。因此,将与噪声音频相对应的文本发送到 LLM 并使用其输出文本作为训练目标。在推理过程中,<2>作为另一个特殊的EOS代币。

  • 状态标记<3>表示纯文本的问题,用于区分训练集中的上述两个查询。在训练期间,视觉和音频编码器都被冻结,并且连接器与 Mixtral 8×7B 结合进行训练。

双工流水线开发

文中设计了两种交互功能,即非唤醒交互和音频中断交互。

非唤醒交互意味着模型可以被激活并响应环境中的用户音频问题,而无需唤醒词或按钮。部署过程必须满足以下要求:

  • 环境声音实时跟踪。这涉及确定音频内容是否构成人类语音。

  • 过滤掉嘈杂的音频。该模型应该只响应有效的人类查询音频。

音频中断交互 音频中断交互使用户可以随时用新问题中断模型的生成。为此,部署环境必须满足以下要求:

  • 外部查询的实时跟踪和过滤。在生成响应的同时,系统必须同时实时跟踪和过滤外部查询。

  • 回答新问题。当新的问题出现时,系统必须停止当前的生成,巩固历史背景,并对当前的问题做出回应。

实验结果

在这里插入图片描述

大模型&AI产品经理如何学习

求大家的点赞和收藏,我花2万买的大模型学习资料免费共享给你们,来看看有哪些东西。

1.学习路线图

在这里插入图片描述

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

2.视频教程

网上虽然也有很多的学习资源,但基本上都残缺不全的,这是我自己整理的大模型视频教程,上面路线图的每一个知识点,我都有配套的视频讲解。

在这里插入图片描述

在这里插入图片描述

(都打包成一块的了,不能一一展开,总共300多集)

因篇幅有限,仅展示部分资料,需要点击下方图片前往获取

3.技术文档和电子书

这里主要整理了大模型相关PDF书籍、行业报告、文档,有几百本,都是目前行业最新的。
在这里插入图片描述

4.LLM面试题和面经合集

这里主要整理了行业目前最新的大模型面试题和各种大厂offer面经合集。
在这里插入图片描述

👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
在这里插入图片描述

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值