Nexus-Gen 论文
Nexus-Gen 采用预测图像嵌入作为中间条件,链接自回归模型和扩散模型,通过预填充自回归避免嵌入误差传播,突破传统外界 LLM 因条件压缩导致信息丢失,提高理解生成模型在理解任务和生成任务上的性能表现。传统的图像生成任务往往局限于 Text-to-Image 场景,模型侧重于图像质量或局部内容填充。而 Nexus-Gen 的架构设计突破了这一范式,不仅具备高质量图像生成能力,还可以执行基于图像内容的问答(VQA)、图像字幕生成、图像到图像编辑(Inpainting)、图像改写(Editing)等任务。

| 任务类型 | 输入格式 | 输出格式 | 示例 prompt |
|---|---|---|---|
| Text2Image | 文本 | 图像 | “Generate an image of a mountain at sunset.” |
| Image2Text | 图像 | 文本(描述) | “Describe this image.” |
| Image Question | 图像 + 文本(问题) | 文本(答案) | “What is the animal doing in the picture?” |
| Inpainting | 图像 + Mask + 指令文本 | 图像(已填补) | “Fill in the missing region with a house.” |
| Image Editing | 图像 + 修改说明 | 图像(已修改) | “Add a red car to the left of the road.” |
| Multi Input | 图像 + 文本 | 图像或文本或对话链 | “Generate a photo based on this style image and caption.” |
视觉编码器、自回归 Transformer、文本投影器均来自 Qwen2.5-VL-7B-Instruct,利用 FLUX-1.dev 作为视觉解码器(将嵌入映射回图像)。
训练时采用 L = λ 1 L C E + λ 2 L M S E + λ 3 L C O S \mathcal{L} = \lambda_1 \mathcal{L}_{CE}

最低0.47元/天 解锁文章






