源神阿里！图像生成Ovis-Image再开源，7B小参数媲美GPT-4o和20B开源模型

原创于 2025-12-04 12:50:59 发布 · 280 阅读

·

8

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

源神阿里太卷了！

图像生成领域，卷掉了曾经的开源之王 Flux，现在连自己也难幸免。

8 月 Qwen 团队发布的 qwen-image 图像生成与编辑模型，至今仍然称霸图像生成开源界。

前几天通义实验室 Z-Image 团队发布的 z-image，直接将 qwen-image 拉下神坛。稳稳霸榜 Hugging Face。

人们以为阿里在玩左右互搏，没想到是 3 只手在互博！

这不，刚刚 Ovis 团队发布了 Ovis-Image。

这是一款仅 7B 参数的文本到图像模型，却在图像内文本渲染任务上展现出媲美 GPT-4o 和 20B+ 开源模型的惊人实力。

Ovis-Image 证明了只要有多模态骨干网的强力支撑和极度精细的训练配方，可靠的中文与英文文本渲染不再是超大闭源模型的专利，单张高端显卡即可承载前沿的生成能力。

架构做减法与能力做加法

在生成式 AI 的赛道上，长期存在一种迷信，认为高质量的文本渲染必须依赖于参数量的暴力堆叠。

现有的解决方案通常走向两个极端，要么像 Qwen-Image 那样将模型规模推高到数百亿参数，带来沉重的部署成本，要么像 Seedream 或 GPT-4o 那样保持闭源，让开发者难以窥探其后的技术细节。

Ovis 团队选择了一条不同的路径。

他们没有盲目扩大规模，而是回到了设计的原点，思考如何在受限的计算预算下，最大化模型的指令遵循能力和文本绘制精度。

Ovis-Image 的核心架构建立在 Ovis-U1 的基础之上，但在结构上进行了大刀阔斧的优化。

它抛弃了复杂的精炼器结构，直接利用多模态大模型的最终隐藏状态作为图像生成的条件输入。

这种设计思路的转变，本质上是将计算资源从画蛇添足的后处理，转移到了核心生成能力的构建上。

模型整体由三个关键部分精密咬合而成。

大脑是 Ovis 2.5 多模态大模型。

与常见的纯语言模型不同，Ovis 2.5 专门针对多模态数据集进行了训练，这意味着它在理解视觉与文本的对应关系上，拥有比普通语言模型更敏锐的直觉。

在 OpenCompass 基准测试中，Ovis 2.5 的表现甚至优于 Qwen2.5-VL-7B，这为后续的图像生成提供了极其精准的语义指引。

负责作画的手是参数量为 7.37B 的多模态扩散 Transformer (MMDiT)。

这个模块深受 Flux.1 Lite 的启发，包含了 6 个双流模块和 27 个单流模块。

为了提升模型处理复杂画面的容量，注意力头的数量被增加到了 24 个，激活函数也升级为 SwiGLU。

视觉信息的压缩与解压则交给了来自 FLUX.1-schnell 的变分自编码器 (VAE)。

为了保持视觉特征的稳定性，这个 VAE 模块在整个训练过程中都被冻结，不参与参数更新。

这套架构最终将总参数量控制在了 10.02B，其中核心的视觉生成部分仅占 7B。

数据工程决定了模型的上限

模型架构搭建了骨架，而数据工程则注入了灵魂。

Ovis-Image 之所以能以小博大，秘密藏在它那条精心设计的四阶段数据处理流水线中。

预训练阶段的数据决定了模型的知识广度。

团队构建了一个庞大的异构语料库，来源涵盖了网络抓取、商业许可和合成数据。

这些数据不仅包含日常摄影和插图，还特别吸纳了设计资产和 UI 模型，因为这些场景是文本渲染的高频地带。

为了解决原始数据中文本描述不准确的问题，团队对中英文数据进行了大规模的重标注 (Recaptioning)。

这不仅仅是简单的看图说话，而是通过更先进的视觉模型，生成与图片内容高度对齐的精确描述。

特别值得一提的是，团队引入了数据切片的概念。

他们专门筛选出那些文本是视觉核心元素的数据，比如海报、横幅、Logo 和 UI 布局，让模型在起步阶段就意识到文字不仅仅是符号，更是图像结构的一部分。

合成数据在这里扮演了关键角色。

利用渲染引擎，团队生成了大量包含清晰排版文本的合成样本，涵盖了各种字体、大小和布局。

这种受控的合成数据，就像是给模型上的书法课，让它在纯净的环境中学习文字的笔画和结构。

数据清洗环节同样严苛。

多阶段的过滤管道结合了启发式规则和跨模态一致性检查，那些图片模糊、文本描述不匹配或者存在安全隐患的数据被无情剔除。

预训练赋予了模型通用的视觉能力，而监督微调 (SFT) 则教会了模型听懂人话。

在这个阶段，数据质量被进一步提纯。

图像分辨率被提升到 1024 像素，涵盖了更广泛的纵横比，以适应真实世界的应用场景。

数据配比经过了精心的平衡。

自然图像提供了真实感，合成数据补充了细节锐度和稀有概念的覆盖。

通过这种混合训练，模型学会了如何将用户的指令转化为高保真的图像，不再是盲目地堆砌元素，而是理解指令背后的构图逻辑。

四阶段训练范式重塑生成质量

Ovis-Image 的训练过程是一场精密的接力赛，每一个阶段都在为下一个阶段的跃升奠定基础。

整个训练框架基于 PyTorch 构建，利用混合分片数据并行 (HSDP) 技术，在 bfloat16 混合精度下高效运转。

预训练建地基。

MMDiT 从随机初始化开始，在标准噪声预测损失的指引下，贪婪地吸收海量数据中的视觉规律。

训练策略采用了变分辨率机制，从最初的 256x256 逐步过渡到 512 至 1024 像素，纵横比也从 0.25 延伸到 4.0。

这种渐进式的训练让模型不仅学会了画画，还学会了适应各种画布的尺寸。

文本编码器和 VAE 在此阶段保持冻结，确保了语义理解和视觉重构的稳定性。

监督微调建立规矩。

模型从处理通用的描述数据，转向处理指令式的监督数据。

学习率被调低，时间表被缩短，目的是在保留预训练学到的通用视觉能力的同时，让模型适应指令跟随的新任务。

这就像是让一个已经学会绘画的学生，开始专门练习命题作文。

直接偏好优化 (DPO)，是审美与准确性的进化。

这一阶段引入了人类和模型生成的偏好数据。

对于同一个提示词，模型会生成两张图，一张是符合人类审美和文本要求的高质量优胜者，另一张是相对较差的失败者。

通过最小化 Diffusion-DPO 目标函数，模型被训练去模仿优胜者的生成轨迹，同时远离失败者的路径。

为了防止模型矫枉过正，团队引入了一个巧妙的获胜者保护机制。

在传统的 DPO 训练中，如果失败者的梯度更新过于激进，可能会破坏优胜者已经学到的好的特征。

Ovis-Image 引入了梯度缩放因子。

当失败者的梯度方向与优胜者的梯度方向发生冲突，导致优胜者的损失可能增加时，这个机制会自动降低失败者梯度的权重。

这相当于给模型的自我修正装上了一个安全阀，确保每一次优化都是在稳步提升图像质量，而不是引入新的噪声或伪影。

群组相对策略优化 (GRPO)，这是对文本渲染的终极打磨。

这是 Ovis-Image 能够实现高精度文本生成的杀手锏。

在这个阶段，模型不再是单打独斗，而是进行群组作战。

对于每一个提示词，模型会生成一组候选图像。

这组图像会被送入多个奖励模型进行评分。

评分不仅关注画面的美观度，更聚焦于文本的拼写准确性、排版的合理性。

通过计算每个图像在群组中的相对优势，模型能够更清晰地感知到什么样的文本渲染才是完美的。

为了提高训练效率，团队在这一阶段采用了系数保留采样技术，并减少了去噪步数。

这使得模型能够在有限的计算资源下，快速地在生成的搜索空间中找到最优解。

实测数据验证小模型的越级挑战

Ovis-Image 在多个权威基准测试中的表现，用数据打破了参数量决定论。

在 CVTG-2K 基准测试中，Ovis-Image 面对的是 2000 个要求极高的英文文本渲染任务。

结果显示，它的词准确率 (Word Accuracy) 达到了 0.9200。

这是一个令人咋舌的数字，因为它显著优于 7B+20B 参数架构的 Qwen-Image (0.8288)，甚至超过了闭源巨头 GPT-4o (0.8569)。

在衡量文本编辑距离的 NED 指标上，Ovis-Image 以 0.9695 的高分位居榜首。

这说明它生成的文本不仅拼写正确，而且在字符级别的细节上也经得起推敲。

LongText-Bench 测试则进一步考验了模型在长文本生成上的耐力。

在中文长文本 (LongText-Bench-ZN) 任务中，Ovis-Image 展现了统治级的表现，得分高达 0.964。

相比之下，Qwen-Image 的得分为 0.946，而 GPT-4o 仅为 0.619。

这表明在处理复杂的中文笔画和长句排版时，Ovis-Image 对多模态数据的深度理解发挥了关键作用。

在英文长文本任务上，它也以 0.922 的高分紧咬 Qwen-Image 和 GPT-4o，差距微乎其微。

通用生成能力的评估同样没有落下。

在 DPG-Bench 测试中，Ovis-Image 的总体评分为 86.59。

虽然略低于 Qwen-Image 的 88.32，但考虑到两者的参数量差距，这个成绩足以证明 Ovis-Image 在通用场景下的鲁棒性。

特别是在关系 (Relation)这一维度上，Ovis-Image 拿到了 93.98 的高分，说明它在处理物体之间的空间关系和逻辑联系上有着独特的优势。

OneIG-Bench 的测试结果进一步印证了这一点。

在中文子集 (OneIG-ZN) 中，Ovis-Image 的文本维度得分高达 0.961，展现了卓越的双语处理能力。

GenEval 基准测试关注对象属性的组合生成。

Ovis-Image 在这里拿到了 0.84 的总体评分，与 GPT-4o 和 Seedream 3.0 持平。

在单一对象生成的子项中，它更是拿到了 1.00 的满分，证明了其基础生成能力的扎实。

计算效率是 Ovis-Image 最大的落地优势。

在 A100 GPU 上生成一张 1024x1024 的图像，进行 50 步采样，Ovis-Image 仅需占用 24,959 MB 的显存。

作为对比，Qwen-Image 需要庞大的 59,329 MB。

这意味着 Ovis-Image 的显存占用不到竞品的 42%。

在推理速度上，Ovis-Image 仅需 30.56 秒，比 Qwen-Image 快了约 33%。

在更先进的 H100 GPU 上，推理时间更是被压缩到了 13.74 秒。

这种高效低耗的特性，让 Ovis-Image 不再是实验室里的庞然大物，而是可以真正部署在单张显卡上的生产力工具。

Ovis-Image 告诉我们，前沿的文本感知生成能力，并不一定是从通用图像合成中偶然涌现的副产品。

通过精心选择的架构、高质量的数据策展以及针对性的对齐目标，中等规模的模型完全可以围绕图像内文本的需求进行重构。

免费试用：

https://huggingface.co/spaces/AIDC-AI/Ovis-Image-7B

参考资料：

https://huggingface.co/AIDC-AI/Ovis-Image-7B

https://github.com/AIDC-AI/Ovis-Image

https://arxiv.org/abs/2511.22982

END

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。