AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling-优快云博客

发表时间：arXiv 2024年2月26日

论文链接：https://arxiv.org/pdf/2402.12226

作者单位： Fudan University

Motivation：

LLM 在理解和生成人类语言方面表现出非凡的能力。但是，LLM 的能力仅限于针对文本的处理。而现实世界的环境本质上是多模态的：生物体通过不同的通道感知和交换信息，包括视觉、语言、声音和触觉。

因此，开发 LLM 的多模态能力，势必对 LLM 来讲是个有前途的方向。当前的方法主要是将一个多模态的编码器 (比如视觉的 ViT) 和 LLM 相结合，使其能够处理各种模态的信息，并利用 LLM 强大的文本处理能力来产生有效的输出。但是这种策略仅限于文本生成，不包括多种模态的输出。比如 Emu[1]，SEED-LLaMA[2] 等等。虽然将文本与一个额外的模态对齐相对简单，但在单个框架内集成3种以上的模态，并在它们之间实现双向对齐，就是个更加困难的挑战。

解决方法：

(1）提出 AnyGPT，一种 any-to-any 的多模态大语言模型。采用离散的表征统一处理语音、文本、图像和音乐等多种不同模态信号。实现方案：使用多模态分词器 (tokenizer)，将原始的多模态数据，比如图像和语音，压缩成离散语义 token 的序列。再使用多模态解分词器 (de-tokenizer)，将离散语义 token 的序列转换回原始模态数据。离散表征的好处是能够过滤掉高频的，特定于模态的感知信息，同时保留基本的低频语义信息。架构层面，继承现有的 LLM 架构，无需任何修改。同时允许直接应用现有的 LLM 工具，从而提高训练和推理的效率。

(2) 构建了一个多模