文章目录
1. 多模态大模型概述
1.1 模型范式
1)模态编码器:模态编码器主要是对来自不同模态的输入进行编码,来获得相应的特征,如视觉方面用ViT,CLIP VIT;音频模态用 C-Former,Whisper 等进行编码;
2)输入 Projector:输入projector 的任务是将其他模态的编码特征与文本特征空间的特征进行对齐,然后输入到 LLM Backbone 内,给定 X 模态-text数据集目标是最小化生成损失
3)LLM Backbone: 处理来自各种模态的表示,参与有关输入的语义理解、推理和决策。它产生输出 (A) 直接文本输出 (B) 其他模式的信号token ,这些信号token充当指导生成器是否生成 MM 内容的指令,如果是,则指定要生成的内容
4)Output Projector:将 LLM 的输出的 token 表征 S X S_X SX 转变成特征 H X H_X HX,然后输给生成器 M G X MG_X MGX。给定数据X-text数据集 { I X , t } \{I_X, t\} </