论文阅读笔记——Nexus-Gen: A Unified Model for Image Understanding, Generation, and Editing

Nexus-Gen 论文
Nexus-Gen 采用预测图像嵌入作为中间条件,链接自回归模型和扩散模型,通过预填充自回归避免嵌入误差传播,突破传统外界 LLM 因条件压缩导致信息丢失,提高理解生成模型在理解任务和生成任务上的性能表现。传统的图像生成任务往往局限于 Text-to-Image 场景,模型侧重于图像质量或局部内容填充。而 Nexus-Gen 的架构设计突破了这一范式,不仅具备高质量图像生成能力,还可以执行基于图像内容的问答(VQA)、图像字幕生成、图像到图像编辑(Inpainting)、图像改写(Editing)等任务。
在这里插入图片描述

任务类型 输入格式 输出格式 示例 prompt
Text2Image 文本 图像 “Generate an image of a mountain at sunset.”
Image2Text 图像 文本(描述) “Describe this image.”
Image Question 图像 + 文本(问题) 文本(答案) “What is the animal doing in the picture?”
Inpainting 图像 + Mask + 指令文本 图像(已填补) “Fill in the missing region with a house.”
Image Editing 图像 + 修改说明 图像(已修改) “Add a red car to the left of the road.”
Multi Input 图像 + 文本 图像或文本或对话链 “Generate a photo based on this style image and caption.”

视觉编码器、自回归 Transformer、文本投影器均来自 Qwen2.5-VL-7B-Instruct,利用 FLUX-1.dev 作为视觉解码器(将嵌入映射回图像)。
训练时采用 L = λ 1 L C E + λ 2 L M S E + λ 3 L C O S \mathcal{L} = \lambda_1 \mathcal{L}_{CE}

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值