MetaMorph 论文
LLaVA 提出了视觉指令微调,表明 LLM 已经具备一定视觉理解能力,只需通过轻量微调激活;类似地,MetaMorph 认为 LLM 具备一定视觉生成能力,同样可通过轻量微调激活。
标准的指令微调的输入序列为:
(
P
i
,
R
i
)
i
=
1
N
(P_i, R_i)_{i=1}^N
(Pi,Ri)i=1N 其中
P
i
P_i
Pi 为第 i 轮对话中的提示(Prompt),
R
i
R_i
Ri 是响应(Response)。VPiT(MetaMorph)在此基础上扩展为包括文本和图像的多模态输入:文本数据——通过标准 LLM 分词器,图像数据——使用 SigLIP 将图像编码为连续的视觉标记,并插值到固定数量(m=64)个标记,再使用一个可训练的投影层对齐 LLM输入维度。(添加
<
i
m
a
g
e
s
t
a
r
t
>
<
i
m
a
g
e
e
n
d
>
<image_start><image_end>
<imagestart><imageend> 作为图像标记)。文本头采用交叉熵损失函数,视觉头采用余弦相似度,与指令微调一致,损失仅计算在响应部分的标记上。(使用 VPiT 微调 LLaMA-3.1 8B)
数据
- Visual Understanding Data:
- ImageQA:Cambrian-7M P i ∈ { < visual tokens > , < text prompt > } P_i\in\{<\text{visual tokens}>,<\text{text prompt}>\} Pi∈{<visual tokens>,<text prompt>} R i ∈ { text response } R_i \in\{\text{text response}\} Ri∈{text response}
- VideoQA:VideoStar、ShareVideo P i ∈ { < visual tokens > , … … ,visual tokens > , < text prompt > } P_i\in\{<\text{visual tokens}>, ……,\text{visual tokens}>,<\text{text prompt}>\} Pi∈{<visual tokens>,……,visual tokens>,<text prompt>} R i ∈ { < text response > } R_i \in\{<\text{text response}>\} Ri∈{<text response>}
- Visual Generation Data:MetaCLIP P i ∈ { < text prompt > } P_i\in\{<\text{text prompt}>\} Pi∈{<text prompt>} R i ∈ { text response , < visual tokens > } R_i \in\{\text{text response},<\text{visual tokens}>\} Ri∈{text response,<visual tokens>}
- Other Visual Data:
- Video Data:SomethingSomethingV2、HowTo100M P i ∈ { < visual tokens > , … … ,visual tokens > , < text prompt > } P_i\in\{<\text{visual tokens}>, ……,\text{visual tokens}>,<\text{text prompt}>\} Pi∈{<visual tokens>,……,visual tokens>,<text prompt>} R i ∈ { visual tokens > , … … ,visual tokens > } R_i \in\{\text{visual tokens}>, ……,\text{visual tokens}>\} Ri∈{visual tokens>,……,visual tokens>}
- Visual Thinking Data: P i ∈ { < visual tokens > , < text prompt > } P_i\in\{<\text{visual tokens}>,<\text{text prompt}>\} Pi∈{<visual tokens>,<text prompt>} R i ∈ { < text response > , < visual tokens > , < text response > } R_i \in\{<\text{text response}>,<\text{visual tokens}>, <\text{text response}>\} Ri∈{<text response>,<visual tokens>,<text response>}
- Image-to-Image Data:InstructPix2Pix、Aurora P i ∈ { < visual tokens > , < text prompt > } P_i\in\{<\text{visual tokens}>,<\text{text prompt}>\} Pi∈{<visual tokens>,<text prompt>} R i ∈ { < visual tokens > } R_i \in\{<\text{visual tokens}>\} Ri∈{<visual tokens>}
实验
- 联合训练 + 理解数据 是解锁生成能力的关键;
- 理解与生成能力是互相促进的;
- 理解数据比生成数据更重要,提升幅度更大;
- 生成质量主要依赖视觉相关的理解能力,与知识性任务无强关联。