腾讯&南大最新联合发布｜VITA：首个开源交互式全能多模态大模型！

本文链接：https://blog.youkuaiyun.com/2401_84204207/article/details/143834552

论文链接:

https://arxiv.org/pdf/2408.05211

代码链接:

https://github.com/VITA-MLLM/VITA

简介

GPT-4o 的多模态能力和互动体验在实际应用中具有重要意义，但开源模型在这两方面的表现普遍较弱。为此，本文提出了 VITA，首个开源的多模态大语言模型（MLLM），能够同时处理和分析视频、图像、文本及音频，同时具备高级的多模态交互体验。基于 Mixtral 8×7B 语言模型，VITA 扩展了中文词汇并进行了双语指令调优，并通过多任务学习赋予视觉和音频处理能力。实验表明，VITA 在多种单模态和多模态基准测试中表现优异，同时显著提升了自然的人机交互体验。

VITA 引入了特殊的状态标记及训练策略，以适应不同的交互场景。采用“双路模型”部署方案，一部分处理用户查询，另一部分实时监测环境输入并更新响应，从而实现非唤醒交互和音频中断交互等功能。尽管 VITA 与封闭源模型相比仍有改进空间，它为开源社区探索多模态理解与交互的一体化发展奠定了基础，具有开创性意义。

研究动机

VITA 的功能和架构分别如图 1 和图 2 所示

如图1所示，传统的音频交互需要预先定义的唤醒词，例如说“嗨！每次提问时“Siri∼”，或者控制输入问题音频的按钮（限制1）。当模型生成输出时，人机交互总是被阻塞，因为之前的系统只能顺序响应输入查询（限制2）。相比之下，一方面，与以前音频、文本和视觉总是分开的方法不同，VITA 端到端地支持这些模式。另一方面，VITA 对多模态交互做出了两个贡献。非唤醒交互：VITA自动过滤背景噪音，如非查询人声，从而无需唤醒词和按钮。音频中断交互：如果用户因另一个问题而中断，生成过程将暂停，模型立即响应最新的查询。

如图2所示，VITA能够处理纯文本/音频形式的输入，以及与文本/音频结合的视频/图像形式的输入。此外，为不同的查询输入设置不同的状态标记。<1> 对应于有效的查询音频，例如“世界上最大的动物是什么？”，我们期望模型对此做出响应。<2> 对应于嘈杂的音频，例如环境中有人叫我吃饭，我们希望模型不会回复。<3>对应查询文本，即用户以文本形式给出的问题。在训练阶段，我们尝试训练模型自动区分不同的输入查询。在部署阶段，通过<2>我们可以实现非唤醒交互。在此基础上，我们进一步介绍了音频中断交互的双工方案。两个模型同时运行，其中生成模型负责处理用户查询。当生成模型开始工作时，另一个模型监视环境。如果用户因另一个有效的音频查询而中断，则监控模型会聚合历史上下文以响应最新的查询，而生成模型将暂停并调整以进行监控，即两个模型交换身份。

论文贡献

开发了一个开源高性能多模态基础模型，同时支持中英文视频、图像、文本和音频输入。该模型接受纯文本/音频输入或视频/图像与文本/音频输入相结合。
设计了一套全面的训练流程，包括提升LLM的中文能力、构建多模态训练数据以及多阶段的训练流程。作为先行者，VITA在自然多模态人机交互领域进行了初步探索。通过引入状态 token，模型可以自动识别输入音频的类型，实现非唤醒交互。同时，双工方案使得实现音频中断交互成为可能。
完全开源VITA模型、训练代码和推理部署框架，旨在促进研究社区的进步。

VITA

如图3所示，VITA的整体训练流程由三个阶段组成：LLM指令调优、多模态对齐和多模态指令调优。VITA的开发也是重要的一部分。

第一阶段LLM指令调优通过扩大语言模型Mixtral 8×7B的词汇量，并利用高质量的双语文本语料库进行微调，增强语言模型Mixtral 8×7B，从而达到中英文的熟练程度。第二阶段多模态对齐将各个编码器与 LLM 连接起来以处理各种模态。通过积累大量高质量多模态数据，我们将文本特征空间与视频、图像和音频特征空间同步。最后阶段的多模式指令调优允许模型遵循文本或音频指令来理解图像或视频。专门设计的状态令牌用于区分输入查询的类型，方便后续的多模态人机交互。

LLM 指令调优

Mixtral 8x7B1 是具有稀疏专家混合 (SMoE) 架构的代表性 LLM。它的表现属于顶级开源LLM，使其成为本文工作的理想起点。观察到官方 Mixtral 模型在理解中文方面表现出有限的能力。为了注入双语（中文和英文）理解能力，文中用中文拓宽了基础模型的词汇量，将词汇量从 32, 000 增加到 51, 747。这种扩展还可以减少同一文本下的 token 数量，从而提高推理效率。扩展词汇到位后，我们使用 500 万个合成双语语料库进行纯文本指令调优。

多模态对齐

在这个阶段，目标是弥合文本和其他模态之间的表示差距，从而为多模态理解奠定基础。

视觉模态 采用 InternViT-300M-448px 作为视觉编码器，它接受 448×448 图像作为输入，在使用简单的两层 MLP 视觉连接器后生成 256 个标记。对于高分辨率图像输入，实施动态修补策略来捕获局部细节。视频被视为图像的特殊情况。如果视频长度小于4秒，统一采样4帧。如果视频长度在 4 到 16 秒之间，每秒采样一帧。对于长度超过16秒的视频，统一采样16帧。为了防止引入过多的视觉标记，不对视频的各个帧执行动态修补。文中仅在视觉对齐阶段训练视觉连接器。除了纯文本部分。另外，在这个阶段不使用音频问题。

音频模态 输入音频最初通过梅尔滤波器组块进行处理。该模块将音频信号分解为梅尔频率范围内的各个频带，模仿人类对声音的非线性感知。随后，利用 4×CNN 下采样层和 24 层 Transformer，总共 341M 个参数来处理输入特征。采用简单的两层 MLP 作为音频-文本模态连接器。最后，每 2 秒的音频输入被编码为 25 个token。

对于其中一项对齐任务，选择了自动语音识别（ASR）。选用的数据集包括 Wenetspeech，其中包含超过 10,000 小时的多域语音识别数据，主要关注中文任务。同样，Gigaspeech也包含 10,000 小时的高质量音频数据，其中大部分数据针对英语语音识别任务。另一个任务是音频字幕，它依赖于 Wavcaps 的 AudioSet SL 子集。该数据集包含 400K 音频剪辑及其相应的音频字幕。在对齐过程中，音频编码器和连接器都会被训练。

多模态指令调优

在这个阶段，对模型进行指令调优，以增强其指令跟随能力，无论是文本还是音频。

根据上一节构建的问答对，模型需要区分三种类型的查询：

查询音频：问题由音频发起。
嘈杂的音频：输入是音频，但不包含问题。
查询文本：问题由文本发起。

基于这些查询类型，设计了三个状态标记<1>、<2>和<3>。在训练阶段，在答案的开头插入相应的状态标记，使模型能够灵活处理不同的交互行为。具体来说：

状态标记<1>表示问题输入是查询音频。在这种情况下，模型的输出需要以文本或 TTS 工具转换的语音形式呈现给用户。
状态标记<2>表示问题输入是噪声音频。该模型应输出 EOS 代币作为终止符。然而，我们观察到在训练期间突然终止输出会显着降低性能。因此，将与噪声音频相对应的文本发送到 LLM 并使用其输出文本作为训练目标。在推理过程中，<2>作为另一个特殊的EOS代币。
状态标记<3>表示纯文本的问题，用于区分训练集中的上述两个查询。在训练期间，视觉和音频编码器都被冻结，并且连接器与 Mixtral 8×7B 结合进行训练。