VLM与扩散模型深度整合，图像理解生成编辑三合一模型登场，权重数据训练流程全开源

最新推荐文章于 2025-12-05 11:17:30 发布

原创

最新推荐文章于 2025-12-05 11:17:30 发布 · 951 阅读

·

22

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #大数据 #大模型

ModelScope（魔搭）团队发布Nexus-Gen V2，一个同时支持图像理解、生成和编辑的统一模型，而且模型权重、训练流程和数据集全部开源。

VLM和扩散模型被整合到一起了。

ModelScope（魔搭）团队发布Nexus-Gen V2，一个同时支持图像理解、生成和编辑的统一模型，而且模型权重、训练流程和数据集全部开源。

这事儿有多重要？今年以来，GPT-4o-Image、Gemini、Blip3O这些大厂的统一模型都在证明一件事：把图像理解和生成能力塞进一个模型，不仅仅是为了省事，更是因为两种任务的有机结合能带来意想不到的效果。

魔搭团队其实早在五月就发布了V1版本，但他们很快发现了问题：图像理解能力相比原始VLM掉点严重，图像生成对提示词太敏感，编辑细节也保持不好。

于是他们憋了几个月大招，从三个方向全面优化，终于拿出了这个V2版本。

在图像理解上，优化了模型的训练策略，极大程度地保留了VLM的理解能力；

在图像生成上，对所有图像生成样本进行了重标注，采用长短描述同时标注并采样选取的策略，提升了图像生成的鲁棒性，同时加入了中文标注样本，支持了基于中文的图像生成。

在图像编辑上，团队系统性地研究了图像重建效果与图像编码token数量之间的关系，并设计了全新的编辑方案。经过以上优化，Nexus-Gen V2达到了第一梯队统一模型的水平，模型的模型权重和全链路训练流程全部开源。

此外，Nexus-Gen V2使用2600万样本进行训练，包括580万图像理解、1330万图像生成和630万图像编辑样本，这个大规模数据集已经在ModelScope主站上开源。

Nexus-GenV2模型的图像编辑和生成可视化效果下：

△图1 Nexus-Gen 图像生成效果

△图2 Nexus-Gen 图像编辑效果

模型架构设计

Nexus-Gen V2沿用了V1的模型架构设计，如图3 a所示，其核心是将扩散模型作为自回归语言模型（Autoregressive Model）的视觉解码器（Vision Decoder），并使用一个统一的图像编码空间（Image Embedding Space）来连接两者，并统一建模图像理解、生成和编辑任务。

输入图像由视觉编码器（Vision Encoder）编码到统一编码空间中，由自回归模型处理。自回归模型使用预填充自回归策略预测输出图像在编码空间的特征向量，然后由视觉解码器解码为输出图像。

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。