论文阅读笔记——Nexus-Gen: A Unified Model for Image Understanding, Generation, and Editing

Nexus-Gen 论文
Nexus-Gen 采用预测图像嵌入作为中间条件,链接自回归模型和扩散模型,通过预填充自回归避免嵌入误差传播,突破传统外界 LLM 因条件压缩导致信息丢失,提高理解生成模型在理解任务和生成任务上的性能表现。传统的图像生成任务往往局限于 Text-to-Image 场景,模型侧重于图像质量或局部内容填充。而 Nexus-Gen 的架构设计突破了这一范式,不仅具备高质量图像生成能力,还可以执行基于图像内容的问答(VQA)、图像字幕生成、图像到图像编辑(Inpainting)、图像改写(Editing)等任务。
在这里插入图片描述

任务类型输入格式输出格式示例 prompt
Text2Image文本图像“Generate an image of a mountain at sunset.”
Image2Text图像文本(描述)“Describe this image.”
Image Question图像 + 文本(问题)文本(答案)“What is the animal doing in the picture?”
Inpainting图像 + Mask + 指令文本图像(已填补)“Fill in the missing region with a house.”
Image Editing图像 + 修改说明图像(已修改)“Add a red car to the left of the road.”
Multi Input图像 + 文本图像或文本或对话链“Generate a photo based on this style image and caption.”

视觉编码器、自回归 Transformer、文本投影器均来自 Qwen2.5-VL-7B-Instruct,利用 FLUX-1.dev 作为视觉解码器(将嵌入映射回图像)。
训练时采用 L = λ 1 L C E + λ 2 L M S E + λ 3 L C O S \mathcal{L} = \lambda_1 \mathcal{L}_{CE} + \lambda_2 \mathcal{L}_{MSE} +\lambda_3 \mathcal{L}_{COS} L=λ1LCE+λ2LMSE+λ3LCOS 。其中 L C E \mathcal{L}_{CE} LCE 用于文本生成任务, L M S E \mathcal{L}_{MSE} LMSE 表示图像像素级差异, L C O S \mathcal{L}_{COS} LCOS 图像语义对齐。
在这里插入图片描述
观察到,在训练时,模型的每个输出标记是基于前面标记的真实值预测;而在推理时,模型使用前面生成的标记来预测下一个标记,从而导致误差的累积,由此提出预填充自回归策略。训练时采用一个可学习的特殊图像标记作为所有图像标记的预填充嵌入(无论预测什么,输入序列总包含该预填充);推理阶段,一旦检测到 BOI 标记,直接用 N 个特殊图像标记预填充进入序列。并且这种方式统一了图像 token 和语言 token 语义空间,实现了模态的融合。(也强迫模型去理解文本图像特征)(也正是因为图像 token 的中间表示和预填充策略,才使模型能够做 Edit)

  • 数据集:使用 Qwen2.5-VL 重新标注 Cambrian7M 的答案和文本描述。
  • 训练策略:1)70万条理解数据+530万条生成数据;2)200万条理解数据+540万条生成数据+550万条编辑数据;3)250万条理解数据+160万条生成数据+90万条编辑数据。FLUX-1.dev 才视觉解码器采用 200万高质量图像训练。

实验结果

在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值