多模态视觉语言模型

原创

已于 2024-05-27 21:04:49 修改 · 2k 阅读

31 ·

CC 4.0 BY-SA版权

文章标签：

#语言模型 #人工智能 #自然语言处理 #多模态

于 2024-04-20 23:54:58 首次发布

本文详细介绍了多模态视觉语言模型，包括BLIP、BLIP-2、LLaVA和QwenVL。BLIP通过图像-文本对比、匹配和语言建模损失进行预训练。BLIP-2利用冻结的图像和语言模型，通过Q-Former进行模态对齐。LLaVA在预训练阶段冻结视觉编码器和大语言模型，仅训练投影层。QwenVL由大语言模型、视觉编码器和视觉语言适配器组成，通过三个阶段进行训练。

文章目录

1. 多模态大模型概述
- 1.1 模型范式
- 1.2 训练范式
2. BLIP
3. BLIP 2
4. LLaVa & LLaVA 1.5
5. QwenVL
- 5.1 模型结构
- 5.2 训练过程
6. 参考

1. 多模态大模型概述

1.1 模型范式

1）模态编码器：模态编码器主要是对来自不同模态的输入进行编码，来获得相应的特征，如视觉方面用ViT，CLIP VIT；音频模态用 C-Former，Whisper 等进行编码；
2）输入 Projector：输入projector 的任务是将其他模态的编码特征与文本特征空间的特征进行对齐，然后输入到 LLM Backbone 内，给定 X 模态-text数据集目标是最小化生成损失
3）LLM Backbone：处理来自各种模态的表示，参与有关输入的语义理解、推理和决策。它产生输出 (A) 直接文本输出 (B) 其他模式的信号token ，这些信号token充当指导生成器是否生成 MM 内容的指令，如果是，则指定要生成的内容
4）Output Projector：将 LLM 的输出的 token 表征 $S_X$ 转变成特征 $H_X$ ，然后输给生成器 $MG_X$ 。给定数据X-text数据集 ${I_X, t\}$