一、 简要介绍
近年来,多模态理解模型和图像生成模型都取得了显著的进步。尽管各自取得了成功,这两个领域却独立发展,形成了独特的架构范式:基于自回归的架构主导了多模态理解,而基于扩散的模型则成为图像生成的基石。最近,人们越来越关注开发能够整合这些任务的统一框架。GPT-4的新能力正是这一趋势的体现,突显了统一的可 能性。然而,两个领域的架构差异带来了重大挑战。为了清晰地概述当前的统一努力,论文提供了一份全面的综述,旨在指导未来的研 究。首先,论文介绍多模态理解和文本到图像生成模型的基础概念和最新进展。接下来,论文回顾现有的统一模型,将其分为三大架构 范式:基于扩散、基于自回归以及融合自回归和扩散机制的混合方法。对于每一类,论文分析了相关工作引入的结构设计和创新。此 外,论文还编制了针对统一模型的数据集和基准测试,为未来的探索提供资源。最后,论文讨论了这一新兴领域面临的关键挑战,包括 令牌策略、跨模态注意力和数据问题。由于该领域仍处于早期阶段,论文预计会迅速取得进展,并将定期更新此综述。论文的目标是激 发进一步的研究,并为社区提供有价值的参考。
二、研究背景
近年来,大型语言模型(llm)的快速发展,如LLaMa 、PanGu、Qwen和GPT,已经彻底改变了人工智能。这些模型在规模和能力上都有所提升,使得各种应用领域取得了突破。与此同时,大语言模型扩展到了多模态领域,诞生了强大的多模态理解模型 ,如LLaVa、Qwen-VL、InternVL、Ovis 和GPT 4。这些模型的能力不仅限于简单的图像描述,还能根据用户指令执行复杂的推理任务。另一方面,图像生成技术也经历了快速发展,像SD系列和FLUX这样的模型现在能够严格遵循用户的提示生成高质量的图像。
LLM和多模态理解模型的主要架构范式是基于自回归生成的方法依赖于decoder-only结构和下一个词预测来进行序列文本生成。相比之下,从文本到图像的生成领域则沿着不同的轨迹发展。最初由生成对抗网络(GANs)主导的图像生成,后来转向了基于扩散模型,这些模型利用了如UNet和DiT 等架构,以及CLIP和T5等先进的文本编码器。尽管有一些尝试使用基于LLM的架构进行图像生成,但目前基于扩散的方法在性能上仍处于领先地位。
虽然自回归模型在图像生成质量上落后于基于扩散的方法,但它们与大语言模型的结构一致性使其特别适合开发统一的多模态系统。一个能够理解和生成多模态内容的统一模型具有巨大的潜力:它可以根据复杂的指令生成图像,对视觉数据进行推理,并通过生成的输出可视化多模态分析。GPT-4o的增强能力于2025年3月问世,进一步突出了这一潜力,引发了对统一的广泛兴趣。
然而,设计这样一个统一的框架面临着重大挑战。它需要将自回归模型在推理和文本生成方面的优势与基于扩散模型在高质量图像合成方面的稳健性相结合。关键问题仍未解决,包括如何有效对图像进行令牌以实现自回归生成。一些方法在基于扩散的流程中常用VAE或VQ-GAN,或其相关变体,而其他方法则利用语义编码器,如EVA-CLIP和OpenAI- CLIP。此外,虽然离散令牌是自回归模型中文本的标准,但连续表示可能更适合图像令牌。除了令牌化之外,结合并行扩散策略与顺序自回归生成的混合架构提供了另一种有前景的方法,除了简单的自回归架构之外。因此,图像令牌技术 和架构设计在统一多模态模型方面仍处于初级阶段。
为了全面概述当前统一多模态模型的状态(如图1所示),从而惠及未来的研究工作,论文呈现了这份综述。首先,论文介绍多模态理解和图像生成的基础概念及最新进展,涵盖自回归和扩散两种范式。接下来,论文回顾现有的统一模型,将其分为三大架构范式:基于扩散、基于自回归以及融合自回归和扩散机制的混合方法。在自回归和混合类别中,论文进一步根据图像令牌化策略对模型进行分类,反映了这个领域方法的多样性。
除了架构之外,论文还构建了专门用于训练和评估统一多模态模型的数据集和基准。这些资源涵盖了多模态理解、文本到图像生成、图像编辑及其他相关任务,为未来的探索奠定了基础。最后,论文讨论了这一新兴领域面临的关键挑战,包括高效的令牌化策略、数据构建、模型评估等。应对这些挑战对于提升统一多模态模型的能力和可扩展性至关重要。
在社区中,有关大型语言模型、多模态理解以及图像生成的优秀综述文章比比皆是,而论文的工作则特别关注理解和生成任务的整合。论文鼓励读者查阅这些互补的综述,以获得更广泛的视角。论文旨在激发这一快速发展的领域内的进一步研究,并为社区提供有价值的参考。

图1.公开与未公开的统一多模态模型时间线。这些模型按发布年份(2023至2025年)分类。时间线中带下划线的模型代表全模态模型,能够处理文本和图像以外的输入或输出(如音频、视频、语音)。时间线突显了该领域的快速发展。
三、基础
3.1多模态理解模型
多模态理解模型是指基于llm的架构,能够接收、推理和生成从多模态输入中生成输出。这些模型扩展了大语言模型在文本数据之外的生成和推理能力,能够跨多种信息模态实 现丰富的语义理解。现有方法大多集中在视觉-语言理解(VLU)上,该领域整合了视觉(如图像和视频)和文本输入,以支持对空间关系、物体、场景和抽象概念的更全面理解。图2展示了多模态理解模型的典型架构。这些模型在一个混合输入空间中运行,其中文本数据以离散形式表示,而视觉信号则编码为连续表示。类似于传统的语言模型,它们的输出是通过分类语言建模和特定任务解码策略生成的离散令牌,这些令牌源自内部表示。

图2.多模态理解模型架构,包含多模态编码器、连接器和大语言模型。 多模态编码器将图像、音频或视频转换为特征,这些特征由连接器处理 并作为大语言模型的输入。连接器的架构大致可以分为三种类型:基于投影的、基于查询的和基于融合的连接器。
早期的VLU模型主要集中在使用双编码器架构来对齐视觉 和文本模态,其中图像和文本首先分别编码,然后通过对齐的潜在表示进行联合推理,包括CLIP、ViLBERT、 VisualBERT和UNITER。尽管这些开创性的模型确立了多模态推理的关键原则,但它们严重依赖于基于区域的视觉预处理和独立的编码器,限制了模式的可扩展性和通用性。随着强大语言模型的出现,VLU模型逐渐转向仅包含解码器的架构,这些架构结合了冻结或最小微调的语言模型骨干。这些方法主要通过具有不同结构的连接器来转换图像嵌入,如图2所示。具体来说,MiniGPT-4 使用了一个可学习层,将CLIP派生的图像嵌入投影到Vicuna的令牌空间中。BLIP-2引入了一个查询transformer,以连接冻结的视觉编码器与冻结的大语言模型(例如Flan-T5 或Vicuna),从而实现高效的视觉-语言对齐,并显著减少了可训练参数。Flamingo采用了门控交叉注意力层来连接预训练的具有冻结的Chinchilla 解码器的视觉编码器。
近期在VLU领域的进展突显了向通用多模态理解的转变。GPT-4V 扩展了GPT- 4的框架,能够分析用户提供的图像输入,在视觉推理、字幕生成和多模态对话方面展现出强大的能力,尽管其具有专有性质。Gemini基于仅解码器架构构建,支持图像、视频和音频模态,其Ultra版本在多模态推理任务中树立了新的标杆。Qwen系列体现了可扩展的多模态设计:Qwen-VL集成了视觉感受器和基础模块,而Qwen2-VL则增加了动态分辨率处理和M-RoPE,以稳健地处理各种输入。LLaVA-1.5和LLaVANext使用基于 CLIP的视觉编码器和Vicuna风格的大语言模型,在VQA和指令跟随任务中表现出色。InternVL系列探索了一种统一的多模态预训练策略,同时从文本和视觉数据中学习,以增强在各种视语言任务中的表现。Ovis通过可学习的视觉嵌入查找表引入了结构化嵌入对齐机制,从而生成与文本令牌结构相匹配的视觉嵌入。最近,一些模型探索了多模态处理的可扩展和统一架构。DeepSeek-VL2采用专家混合(MoE)架构来增强跨模态推理。总体而言,这些模型标志着向指令调优和以令牌为中心的框架的明确进展,能够以统一且可扩展的方式解决多样化的多模态任务。
3.2 文本到图像模型





早期扩散模型采用U-Net架构来近似评分函数。基于 Wide ResNet的U-Net设

最低0.47元/天 解锁文章
302





