Nexus-Gen 论文
Nexus-Gen 采用预测图像嵌入作为中间条件,链接自回归模型和扩散模型,通过预填充自回归避免嵌入误差传播,突破传统外界 LLM 因条件压缩导致信息丢失,提高理解生成模型在理解任务和生成任务上的性能表现。传统的图像生成任务往往局限于 Text-to-Image 场景,模型侧重于图像质量或局部内容填充。而 Nexus-Gen 的架构设计突破了这一范式,不仅具备高质量图像生成能力,还可以执行基于图像内容的问答(VQA)、图像字幕生成、图像到图像编辑(Inpainting)、图像改写(Editing)等任务。
任务类型 | 输入格式 | 输出格式 | 示例 prompt |
---|---|---|---|
Text2Image | 文本 | 图像 | “Generate an image of a mountain at sunset.” |
Image2Text | 图像 | 文本(描述) | “Describe this image.” |
Image Question | 图像 + 文本(问题) | 文本(答案) | “What is the animal doing in the picture?” |
Inpainting | 图像 + Mask + 指令文本 | 图像(已填补) | “Fill in the missing region with a house.” |
Image Editing | 图像 + 修改说明 | 图像(已修改) | “Add a red car to the left of the road.” |
Multi Input | 图像 + 文本 | 图像或文本或对话链 | “Generate a photo based on this style image and caption.” |
视觉编码器、自回归 Transformer、文本投影器均来自 Qwen2.5-VL-7B-Instruct,利用 FLUX-1.dev 作为视觉解码器(将嵌入映射回图像)。
训练时采用
L
=
λ
1
L
C
E
+
λ
2
L
M
S
E
+
λ
3
L
C
O
S
\mathcal{L} = \lambda_1 \mathcal{L}_{CE} + \lambda_2 \mathcal{L}_{MSE} +\lambda_3 \mathcal{L}_{COS}
L=λ1LCE+λ2LMSE+λ3LCOS 。其中
L
C
E
\mathcal{L}_{CE}
LCE 用于文本生成任务,
L
M
S
E
\mathcal{L}_{MSE}
LMSE 表示图像像素级差异,
L
C
O
S
\mathcal{L}_{COS}
LCOS 图像语义对齐。
观察到,在训练时,模型的每个输出标记是基于前面标记的真实值预测;而在推理时,模型使用前面生成的标记来预测下一个标记,从而导致误差的累积,由此提出预填充自回归策略。训练时采用一个可学习的特殊图像标记作为所有图像标记的预填充嵌入(无论预测什么,输入序列总包含该预填充);推理阶段,一旦检测到 BOI 标记,直接用 N 个特殊图像标记预填充进入序列。并且这种方式统一了图像 token 和语言 token 语义空间,实现了模态的融合。(也强迫模型去理解文本图像特征)(也正是因为图像 token 的中间表示和预填充策略,才使模型能够做 Edit)
- 数据集:使用 Qwen2.5-VL 重新标注 Cambrian7M 的答案和文本描述。
- 训练策略:1)70万条理解数据+530万条生成数据;2)200万条理解数据+540万条生成数据+550万条编辑数据;3)250万条理解数据+160万条生成数据+90万条编辑数据。FLUX-1.dev 才视觉解码器采用 200万高质量图像训练。
实验结果