GPT-4o作为最近的重大进展,展示了统一模型在理解和生成多模态信息方面的巨大潜力。它在先进的多模态理解能力基础上,集成了图像生成能力,使用户能够通过自然语言对话执行复杂的视觉理解与生成任务。
为了转向统一的多模态理解和生成框架,目前存在两个基础性的关键问题:
- 如何赋予多模态理解模型生成图像的能力?这通常需要精心设计一个能够与大型多模态语言模型无缝协作的视觉解码器。
- 如何有效地在理解和生成任务上训练统一模型?我们观察到,GPT-4o通过整合图像生成能力进一步提升了理解能力,暗示统一训练可能协同提高模型在多个任务上的表现。
针对这些基础问题,阿里巴巴国际化数字商业集团AI Business 多模态团队,基于自主研发的Ovis(Open Vision models)基础模型,推出了统一的多模态理解与生成模型:Ovis-U1。
Ovis-U1作为Ovis家族的系列模型之一,在模型架构侧结合了基于扩散的视觉解码器和双向令牌细化器,使得模型具备生成高保真图像的能力。同时Ovis-U1采用了全新的统一训练方法,仅由语言模型初始化,从头训练模型的视觉理解和视觉生成的能力,在理解和生成任务中找到了协同增强的路径。
测评结果显示,在同级别参数量(~3B)下,相比于主流开源模型,Ovis-U1模型在多模态理解评测榜单、文生图评测榜单、图像编辑评测榜单上取得SOTA结果。并且对于Ovis-U1模型和评测代码,实现完全开源,开源信息如下:
- 技术报告:https://arxiv.org/pdf/2506.23044
- 代码:https://github.com/AIDC-AI/Ovis-U1
- 模型:https://huggingface.co/AIDC-AI/Ovis-U1-3B
- Demo:https://huggingface.co/spaces/AIDC-AI/Ovis-U1-3B
Ovis-U1模型架构详解
Ovis-U1继承了Ovis的架构,并通过增加视觉解码器以生成图像。这个统一模型不仅能够理解输入的图像和文本,还能生成图像和文本,实现多模态理解生成一体化模型。
大语言模型(LLM)与文本分词器
我们采用Qwen3系列作为Ovis-U1的骨干模型。具体的,我们选择Qwen3-1.7B来创建具有30亿参数的Ovis-U1模型。与以往直接使用多模态大语言模型的方法不同,Ovis-U1从语言模型初始化,通过视觉理解和生成数据训练,以同时增强其在理解和生成任务中的性能。
视觉编码器(Visual Encoder)与适配器(Adapter)
我们对Ovis原有的视觉编码器进行了增强。新的视觉编码器基于Aimv2-large-patch14-448初始化,能够原生处理任意分辨率的图像。通过插值调整原有固定大小的位置信息嵌入,并引入2D旋转位置信息嵌入(RoPE)以提升空间感知能力。架构采用了可变长度序列注意机制,结合NaViT的令牌打包策略,高效处理不同分辨率图像的训练批次。随后,视觉适配器通过像素混洗操作进行空间压缩,结合线性头和softmax函数,将特征转换为视觉词汇的概率分布,最终传输至LLM。
视觉解码器(Visual Decoder)与VAE
视觉解码器使用扩散变换器。受FLUX的启发,我们采用MMDiT+RoPE的模型结构,通过缩减层数和注意头数,形成1B参数的视觉解码器。通过使用SDXL的VAE模型将原始图像像素空间转换至隐空间,并在训练中将其冻结。视觉语义嵌入与文本嵌入拼接,为生成图像提供语义条件。同时,我们使用VAE编码输入图像的细节特征,提升模型做图像编辑任务时的细节保持能力。
细化器(Refiner)
通过引入双向令牌细化器,以促进视觉嵌入和文本嵌入之间的交互。通过两层变换器模块使得不同层次的图像和文本信息得以充分利用。值得注意的是,为替代CLIP捕获全局特征,我们引入可学习的CLS令牌,与LLM生成的嵌入结合后输入细化器进行交互,从而有效捕获全局语义信息。
Ovis-U1训练方式详解
与直接使用预训练多模态大模型(如Qwen-VL)的方法不同,Ovis-U1从预训练的语言模型(LLM)出发,经过多阶段的训练,使模型拥有卓越的多模态理解与生成能力。Ovis的训练流程共分为6个阶段,每个阶段都为模型的最终表现奠定了坚实的基础。
阶段0:视觉解码器预训练
我们从零开始构建了一个拥有十亿参数的扩散变换器作为视觉解码器,阶段0旨在让其拥有基本的图像生成能力。在这个阶段,我们使用文生图的训练数据,使视觉解码器可以根据LLM的嵌入生成图像。
阶段1:适配器预训练
适配器作为视觉编码器和LLM之间的桥梁,对齐视觉和文本嵌入。适配器在此阶段从随机初始化开始训练。与Ovis仅用理解任务训练不同,Ovis-U1同时使用理解、文生图和图像编辑任务进行训练。
阶段2:视觉编码器对齐
此阶段对视觉编码器和适配器进行微调,以进一步对齐视觉和文本嵌入。与阶段1类似,此阶段使用所有三种任务进行训练,我们发现生成任务有助于对齐不同模态的嵌入。
阶段3:理解学习
这一阶段使用理解任务进一步训练视觉编码器、适配器和LLM的参数,进一步激发模型的多模态理解能力。完成此阶段后,这些参数会被固定,以保留理解能力。
阶段4:生成学习
由于阶段3调整了LLM参数,我们随后训练细化器和视觉解码器,使其与优化后的文本和图像嵌入对齐。实验表明,与阶段0相比,经过阶段1-3的优化,文本生成图像的性能显著提升。
阶段5:生成微调
借助模型的文生图能力,最后一个训练阶段对视觉解码器进行微调,以增强文生图、图像编辑等各种生图任务的表现。 通过这些精心设计的训练阶段,Ovis-U1不仅在多模态理解上表现出色,还在图像生成和图像编辑能力上超越了许多特定任务的模型。
Ovis-U1模型的效果展示与性能
作为统一的多模态理解与生成模型,Ovis-U1既能理解输入图像,又能生成图像,拥有图像理解能力、根据文本生成图像能力、图像编辑能力。
下图展示了Ovis-U1在理解和分析复杂视觉内容时的卓越表现。它能够识别精细的细节,例如物体属性、空间层次和微妙的互动,并在特定领域任务中保持上下文意识。这种能力使得Ovis-U1在处理需要深度视觉分析的任务时如鱼得水。
针对多模态理解任务,我们使用OpenCompass多模态学术基准测试Ovis-U1。与目前3B参数范围内的领先模型相比,Ovis-U1显著领先,展示了非凡的理解能力,树立了新的性能标杆。
下图展示了Ovis-U1生成高保真图像的能力。无论是逼真的场景、抽象概念还是混合设计,Ovis-U1都能合成引人注目的图像,同时保留复杂的纹理。即便是在处理涉及多物体排列、空间约束或抽象属性绑定的复杂提示时,它也表现出色。
我们使用业界常用的GenEval测试根据文本生成图像的能力。与近期的开源模型相比,Ovis-U1表现亮眼,不仅远超模型尺寸相近的OmniGen模型,同时达到与更大模型相当的性能。
此外,下图展示了Ovis-U1进行编辑图像的精确度。无论是内容替换、风格转换还是结构编辑,它都能在保持背景完整性的同时,严格执行指令提示,生成几乎无瑕疵的结果。
我们使用最近的ImgEdit-Bench测试Ovis-U1的性能。与之前的开源模型相比,Ovis-U1表现出色,它不仅能够进行细致的图像修改,还能保持图像的整体性,在速度和质量上都优于其他竞争对手。
更多的定量评估结果(如DPG-Bench, GEdit-Bench)请参见我们的技术报告。
这些定量评估与之前展示的定性结果相结合,使Ovis-U1成为多模态理解生成任务的多面手。其紧凑的3.6 B参数架构在效率和可扩展性之间实现了良好平衡,不仅为更大规模训练提供了潜力,也保持了实际部署的可行性。
由于模型尺寸相对较小,Ovis-U1仍存在一些局限。在多模态理解方面,Ovis-U1在展现深度思考能力上稍显不足。在图像生成方面,Ovis-U1有时会出现幻觉和伪影现象,生成图像的细节仍有较大的提升空间。此外,Ovis-U1的训练数据仅限于英文,其在中文指令遵循方面的能力也有待进一步提高。
总结与展望
Ovis-U1在模型设计与训练策略上的创新,实现了多模态理解与多模态生成的统一,在技术突破的同时,显著提升了全球用户的体验与创作效率。面向未来,Ovis-U1将持续迭代升级,以应对更多挑战和机遇,主要方向包括:
- 模型参数扩展:进一步训练更大规模参数的Ovis-U1模型,以有效缓解小模型常见的幻觉与伪影问题,带来更高质量的图像生成能力。
- 训练数据优化:训练数据构建链路将持续优化,聚焦多样化、高质量的数据集采集与策划,尤其是大规模图文交织内容,为统一模型的高效训练提供坚实基础。
- 架构创新设计:持续推进架构创新,针对统一多模态任务进行个性化设计。视觉编码-解码结构将进一步优化,在保留图像细粒度信息的同时,实现与大语言模型特征的高效对齐。
- 统一强化学习探索:强化学习技术已成为大模型优化的重要工具。围绕多模态理解与生成的统一模型,亟需探索更有效的对齐人类偏好的强化学习方法,这也是当前领域面临的重要研究课题。
后续,Ovis-U1将在多模态大模型领域持续探索,助力人工智能技术的进一步发展与应用落地。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。