开源界新王牌，多任务生成全屠榜！智源重磅开源OmniGen2：独创多模态反思机制

Python_金钱豹

于 2025-06-27 20:24:52 发布

阅读量379

点赞数 15

CC 4.0 BY-SA版权

文章标签：知识图谱语言模型人工智能架构深度学习

本文链接：https://blog.youkuaiyun.com/Python_cocola/article/details/148960263

论文链接：https://arxiv.org/pdf/2506.18871
项目链接：https://vectorspacelab.github.io/OmniGen2/
git 链接：https://github.com/VectorSpaceLab/OmniGen2

亮点直击

开源了 OmniGen2，这是一款强大的多模态生成模型，在多种图像生成任务中展现了卓越的性能。除了强大的图像合成能力外，OmniGen2 还保持了出色的文本生成能力。在此基础上，进一步探索了多模态反思机制在图像生成中的应用。
提出了新颖的数据生成流程，并构建了一套高质量的数据集，这些数据集源自视频，专门设计用于解决高级图像编辑和上下文学习任务中的数据稀缺问题。
构建了 OmniContext Benchmark，这是一个全面的评估套件，旨在严格评估和标准化多种场景下上下文视觉生成能力的测量方法。

总结速览

解决的问题

统一多模态生成任务的模型架构：现有模型往往专注于某一类任务（如文本生成图像或图像编辑），缺乏统一的架构来同时处理多种生成任务。
图像编辑与上下文生成任务中的数据稀缺问题：高质量、结构化的数据集在这些任务中较为稀缺，限制了模型的训练与评估。
模型训练效率与能力平衡：在保持较小参数规模的前提下，如何实现高质量的多模态生成。
缺乏对上下文视觉生成能力的系统性评估方法：尤其是在主体驱动任务（subject-driven tasks）中，缺乏统一的评估基准。

提出的方案

设计了 OmniGen2 模型架构：
- 采用解耦的文本与图像解码路径，每个模态使用独立参数。
- 使用不共享参数的图像分词器（image tokenizer），保留文本生成能力的同时增强图像生成能力。
- 架构可无缝构建在现有多模态理解模型之上，无需重新适配 VAE 输入。
引入反思机制（Reflection Mechanism）：
- 为图像生成任务设计的专用机制，用于提升生成质量与一致性。
- 构建了相应的反思数据集以支持该机制的训练。
构建高质量数据集与数据生成流程：
- 从视频中提取数据，用于图像编辑与上下文生成任务。
- 专门设计的数据构建流程解决数据稀缺问题。
提出 OmniContext Benchmark：
- 一个新的基准评估套件，用于系统性评估上下文视觉生成能力，尤其是主体驱动任务中的一致性与表现。

应用的技术

多模态大模型解耦架构设计（文本路径与图像路径分离）
图像分词器（Image Tokenizer）
多模态反思机制（用于提升图像生成质量）
上下文生成训练流程与数据构建技术
基准评估工具集（OmniContext），用于一致性与多任务能力的测试

达到的效果

在多项任务中表现优异：
- 尽管模型参数规模较小，OmniGen2 在文本生成图像、图像编辑等任务上取得了具有竞争力的性能。
- 在上下文生成任务中展现出强大的泛化与一致性能力。
在开源模型中达到领先水平：
- 在一致性评估方面，OmniGen2 在开源多模态生成模型中达到了当前最先进的性能。
增强了模型的可扩展性与实用性：
- 通过解耦架构和模块化设计，使模型更易于扩展与适配不同的生成任务。
推动领域研究发展：
- 全面开源模型、训练代码、数据集与数据构建流程，为多模态生成领域的后续研究提供了坚实基础。

模型

设计原则

在原始的 OmniGen 框架中，本文采用了自回归建模用于文本生成，以及基于扩散的方法用于图像生成，二者都在以 phi-3 初始化的 Transformer 架构中实现。在 OmniGen 发布之后，本文进行了一系列后续实验。首先，本文将 phi-3 替换为更强大的 Qwen 模型。出人意料的是，尽管使用了更强的大语言模型（LLM），本文观察到图像生成质量有所下降。其次，本文探索了一种专家混合（MoE）策略，用于独立路由文本和图像参数，类似于 LMfusion 中的方法。本文的研究发现：将图像分支初始化为来源于文本分支的参数，其性能劣于直接对图像路径进行随机初始化。这些结果表明，为文本优化的参数并不适合图像建模。因此，在 OmniGen2 中，本文将扩散过程解耦，并对其参数进行随机初始化。

近期的一些方法，如 MetaQuery 和 BLIP-3o，采用可学习的查询 token 来编码扩散生成的条件信息。这些方法将所有条件信息压缩为固定数量的 token，这不可避免地限制了表示能力并引入信息损失。本文也发现，这种基于 token 的压缩方法难以处理长文本的渲染。因此，OmniGen2 不再依赖固定数量的可学习查询 token，而是使用多模态大语言模型（MLLM）产生的多模态交错条件的隐藏状态，作为扩散解码器的输入。另一种可选方案是结合条件隐藏状态与查询 token 的信息，这一方向留作未来工作探索。

另一个重要的考虑是 VAE 编码器的集成。尽管现有的多模态大模型主要使用 ViT 进行图像建模，但 ViT 往往难以捕捉细粒度的视觉细节，导致图像生成任务中的图像保真度下降。虽然对 ViT 特征进行端到端训练可以缓解这一限制，但这会在图像理解与生成任务之间引入额外的复杂性。近期的工作如 BAGEL 和 Mogao 通过对图像进行双重编码（同时引入 VAE 和 ViT 特征）来应对这一问题。然而，这种双重编码方式需要大量的架构修改，并引入复杂的注意力机制，从而增加了开发的复杂度。此外，将模型适配为新架构还需要重新训练以恢复其图像理解能力。鉴于这些挑战，本文选择仅将 VAE 用作扩散解码器的输入，而不是将其集成到 MLLM 中。这一策略保留了 MLLM 的架构简洁性，并在无需大量重新训练的前提下，维持其多模态理解能力。

多模态大语言模型

如下图 2 所示，OmniGen2 利用一个基础的多模态大语言模型 Transformer 来处理文本与图像输入。对于文本生成任务，采用自回归语言头；而图像生成则通过专用的扩散模块完成。Transformer 主干由 Qwen2.5-VL-3B 初始化。本文引入了一个特殊的 token：“<|img|>”，用于在输出序列中显式指示图像生成。当模型遇到该 token 时，会触发扩散解码器以合成对应图像。由 MLLM 产生的隐藏状态作为扩散解码器的条件输入。然而，由于这些隐藏状态可能缺乏详细的视觉信息，本文进一步使用从输入图像中提取的 VAE 特征来增强解码器。扩散解码器随后使用修正流（Rectified Flow, ）方法进行图像生成。

扩散 Transformer

如上图 2 所示，本文采用了一个简单的扩散 Transformer 架构，直接将来自 MLLM、VAE 和噪声的特征连接在一起，从而实现对这些模态的联合注意力机制。参考 Lumina-Image 2.0，多个输入条件首先通过一个细化网络进行处理，以确保对齐，然后再传递到 Transformer 层。扩散解码器由 32 层组成，隐藏维度为 2520，总参数量约为 40 亿。由于显式引入了 VAE 特征，MLLM 中与图像相关的隐藏状态变得不再关键。为了减少计算开销，本文丢弃了 MLLM 中与图像相关的隐藏状态，仅保留与文本 token 相关的部分。此外，本文在扩散 Transformer 中采用了三维旋转位置嵌入（3D rotary position embedding），这是对 Qwen 的 mRoPE 的一种修改。

多模态旋转位置嵌入（Multimodal Rotary Position Embedding） 受近期多模态位置嵌入设计的启发，本文引入了一种新颖的 Omni-RoPE，专为满足本文多样且复杂的任务需求（特别是图像编辑与上下文生成）而设计。如下图 3 所示，本文的 Omni-RoPE 被分解为三个不同的组成部分：

序列与模态标识符（idseq）：该组件的主要作用是区分来自不同模态和序列的 token。关键在于，本文将每张图像视为一个完整的语义单元。因此，属于同一图像的所有 token 被分配相同且恒定的 ID。相比之下，对于文本 token，该 ID 随每个后续 token 单调递增，作为标准的一维位置索引以保留词序。该组件等价于 Qwen2-VL 中原始的 mRoPE。
二维空间高度坐标（）：表示图像 token 的归一化垂直位置。
二维空间宽度坐标（）：表示图像 token 的归一化水平位置。对于所有非图像 token，两个空间坐标和均设为 0。

本文设计的关键在于这些组件如何协同工作。对于每个图像实体——无论是作为源图像还是目标图像——其空间坐标都是从独立计算的。这确保了对应位置的 token 拥有相同的空间嵌入，从而强烈促进一致性并在编辑过程中保留未修改区域。尽管空间坐标是局部定义的，唯一的序列与模态标识符 idseq 提供了一种明确机制来区分不同的图像实体。这种整体设计可无缝退化为仅文本输入时的标准一维位置嵌入，使本文的 M-RoPE 成为一个灵活且强大的框架，有效支持全谱系的多模态操作。

训练策略

MLLM 使用 Qwen2.5-VL 初始化，在训练过程中其大部分参数保持冻结状态，以保留其多模态理解能力。仅新引入的特殊 token “<|img|>” 被更新。扩散模型从零开始训练，初期专注于文本到图像（T2I）生成任务，随后采用混合任务训练策略以适应多种目标。在反思训练阶段，所有模型参数解冻（见下图 13），允许模型生成反思性的文本描述并迭代优化图像输出。

数据集构建

对于多模态理解任务，本文使用 LLaVA-OneVision 提供的数据集。对于文本到图像（T2I）生成，本文的训练语料库包含约 1.4 亿张开源图像，来源包括 Recap-DataComp、SAM-LLaVA、ShareGPT4V、LAION-Aesthetic、ALLaVA-4V、DOCCI、DenseFusion、JourneyDB 和 BLIP3-o。此外，本文还引入了 1000 万张自有图像，并使用 Qwen2.5-VL-72B 生成合成标注。对于图像编辑任务，本文收集了公开可用的数据集，包括 SEED-Data-Edit、UltraEdit、OmniEdit、PromptFix 和 ImgEdit。然而，这些开源资源常常存在图像质量不佳、指令准确性有限以及任务多样性不足的问题。为了解决这些限制并更好地服务于本文的研究目标，本文精心构建了一个新的综合训练数据集。以下部分将详细介绍本文数据构建的流程。

上下文内数据（In-Context Data）

上下文内图像生成任务专注于从输入图像中提取视觉概念（如特定物体、身份或个体），并在新生成的图像中准确再现这些概念。该任务亦称为主体驱动生成，与大语言模型中的上下文学习类似：图像生成模型仅依据提供的上下文实时生成个性化输出，无需额外的微调。尽管由于其广泛应用而被广泛研究，上下文内图像生成仍面临缺乏高质量专用数据集的问题。

上下文内生成（In-Context Generation）

上下文内生成任务要求建模在不同场景中一个物体的多样外观。为此，本文利用视频数据，因其天然记录了同一主体在不同条件下的帧。该时间多样性使本文能够构建训练对，其中主体在语义上保持一致，但在姿态、视角和光照上有所不同。如下图 5 所示，本文的数据流程从每段视频中提取关键帧并指定一个基础帧开始。使用 Qwen2.5-VL-7B-Instruct，本文识别基础帧中的主要主体，利用模型的视觉-语言能力聚焦于语义显著的实体，同时过滤掉无关背景物体。随后，使用 GroundingDINO 获取基于视觉-语言模型生成标签的主体边界框。接着，使用 SAM2 对后续帧中的主体进行分割和追踪，选择包含所有主体的最后有效帧以最大化外观变化。为减轻追踪误差（如包含外观相似但错误的物体），本文引入基于 VLM 的过滤步骤以确保主体一致性。为进一步增强视觉多样性，本文使用 FLUX.1-Fill-dev 对输入帧中的主体进行外延填充以生成新背景。本文应用基于 DINO 的相似度过滤，剔除主体外观偏离较大的样本，并使用 Qwen2.5-VL-7B-Instruct 评估生成样本的语义质量与一致性。此外，Qwen2.5-VL-7B-Instruct 还用于生成基础图像的简洁物体描述与详细图像描述，这些内容被整合进自然语言指令中。最终训练三元组包括：指令、作为输入的重绘图像，以及作为输出的原始图像，为多主体生成任务提供语义丰富且视觉多样的监督。

上下文内编辑（In-Context Edit）

本文进一步将上下文内生成范式扩展至编辑任务，提出了一个新任务：上下文内编辑，如下图 6 所示。在该任务中，模型从上下文图像中提取相关元素，并利用这些元素对目标输入图像进行编辑。

上下文内编辑的数据来源与上下文生成相同：选择包含同一物体的两个帧，一个作为上下文帧，另一个作为目标帧。首先，使用 SAM2 获取两个帧的物体掩码。对于上下文图像，应用 FLUX.1-Fill-dev 通过外延填充生成新的背景，从而促使模型聚焦于物体特征。随后，使用 FLUX.1-Fill-dev 对目标帧进行内填充，移除物体同时保留原始背景，生成输入帧。最后，Qwen2.5-VL-72B-Instruct 生成从输入帧到目标帧的自然语言变换描述，并与上下文帧中的物体描述结合，生成完整的自然语言指令。

图像编辑数据（Image Editing Data）

内填充数据（Inpaint Data）

现有大多数编辑数据集是通过内填充方法构建的，但存在以下问题：
(1) 图像质量低：既因为分辨率低，也因为内填充后的图像退化；
(2) 编辑指令不准确：以往工作预定义编辑指令，并使用内填充模型基于这些指令生成图像，但内填充模型的指令遵循能力较差，导致编辑指令与原始-内填图像对之间不匹配。

在本工作中，本文从文本到图像数据中选取一小部分高质量图像作为数据源，使用 FLUX.1-Fill-dev 进行内填充。本文将内填图像作为输入，原始图像作为目标，以保证目标图像的高质量。此外，本文不向内填充模型输入指令，使其随机填充内容。在获得图像对后，本文使用 MLLM 基于图像对生成编辑指令。本文发现最新的 MLLM（如 Qwen2.5-VL）在为原始-内填图像对撰写编辑指令方面表现出色，从而构建出一个高准确性的编辑数据集。

视频数据

传统的内填充方法在构建多样化数据方面存在固有限制，因此无法胜任诸如动作修改、物体移动或表情变化等任务。为了解决这些限制，本文额外从视频源中提取编辑对。

本文在下图 7 中展示了该流程。图像编辑任务通常要求在保留周围上下文完整性的同时进行局部修改。为了从视频中构建合适的图像编辑对，关键在于识别仅表现出局部变化的帧对。本文首先将视频划分为不同的场景，以避免跨不连续上下文配对帧。场景边界通过分析平均 RGB 像素强度来检测，同时在 HSV 色彩空间中使用差异的滑动平均来增强对快速运动的鲁棒性。在每个识别出的场景中，本文提取多个帧对，并使用 DINOv2 和 CLIP 评估它们之间的差异。表现出显著差异（表明视角变化）或几乎没有差异的帧对会被过滤掉。

由于即使在单一场景中，视频中的相机视角也常常发生变化，因此需要进一步的筛选。现有方法（如视觉语言模型）计算开销大且容易出错，而基于颜色直方图或像素级相似性的方法要么对空间结构不敏感，要么对噪声过于敏感。为了解决这些问题，本文将每张图像划分为多个块，并比较对应块的颜色直方图以评估其相似性，从而有效降低噪声的影响。随后计算相似块的比例以施加空间约束，该比例作为视角一致性的可靠指标。这一策略在保持计算效率的同时，有效过滤掉视角变化的帧对。

最后，对于每个保留的视角一致的图像对，本文使用 Qwen2.5-VL-72B-Instruct 生成精确的编辑指令，从而促进高质量图像编辑数据集的构建。

交错数据

交错帧

本文首先基于检测到的场景转换对视频进行分段，并从每个片段中提取关键帧。随后，本文构建两种类型的视频帧序列，每种序列最多包含五帧：一种是由同一场景内帧组成的“场景内交错序列”，另一种是由不同场景帧组成的“跨场景交错序列”。

在提取帧序列后，本文使用多模态大语言模型（MLLM）为每对连续帧生成描述性字幕，描述物体动作和行为的变化、环境和背景的变化，以及物体外观的差异。鉴于所需注释量巨大，本文采用轻量级模型 Qwen2.5-VL-7B-Instruct 完成此过程。最终本文从视频源中获得了 80 万条交错数据样本，用于预训练模型处理连续多模态序列的能力。

反思数据

受大型语言模型在测试时扩展与自我反思方面研究成果的启发，本文进一步探索将反思能力整合进多模态生成模型，并展示测试时扩展如何提升图像生成质量。本节聚焦于后续模型微调所需的反思数据构建。

反思数据由一段交错的文本与图像序列组成，起始为用户指令，随后是多模态模型生成的图像，以及对先前生成结果的逐步反思。每轮反思包含两个关键方面：
1）分析与原始指令之间的缺陷或未满足的要求；
2）提出改进前一张图像的解决方案。

为构建自我反思数据，本文从训练数据中选取一小部分子集（当前实验中仅使用文本到图像任务的数据），通过模型生成图像。随后，本文使用 MLLM 评估生成图像是否符合指令要求。如果图像未能充分遵循指令或存在其他质量问题，模型将识别具体错误并提出修改建议。

最初本文尝试使用 DSG 评估框架评估指令-图像对齐性，但该方法常产生幻觉。后来本文发现强大的多模态模型可以直接完成此任务，因此本文使用 Doubao-1.5-pro 输出问题与修改建议。

在获得第一轮反思后，本文将生成图像与对应反思附加至原始指令中，并在这些数据上微调模型。训练完成后，本文继续推理数据（使用第一轮反思数据）以获得第二轮图像与对应反思数据。该迭代过程可产生多轮自我反思数据。

目前关于使用反思机制提升多模态生成模型中图像生成任务的研究仍较少。本文希望本工作能推动多模态生成领域中推理能力的发展。在模型通过当前数据训练获得初步反思能力后，可进一步通过在线强化学习算法增强这些能力，这部分留待后续探索。

OmniContext 基准测试

OmniGen2 的关键目标是实现用户提供特定上下文图像时的一致性生成。为严格评估这一重要但尚未充分评估的能力，本文提出了 OmniContext —— 一个旨在评估模型在不同上下文中保持主体一致性的基准测试。

现有上下文图像生成基准测试难以覆盖真实应用场景。它们未考虑多输入图像的情况，且受限于上下文图像数量少与任务类型单一。DreamBench 仅包含 30 个物体与 25 个提示模板，缺乏对人物主体与场景级上下文的覆盖。同时，现有基准使用 CLIP-I 与 DINO 指标评估上下文生成图像的质量，这些指标依赖输入与输出之间的图像级相似性，难以适用于多主体场景，且缺乏可解释性。

为填补这些空白，本文构建了 OmniContext，基于大规模人工收集的高质量图像数据集，包括个人照片、开源图像、动画静帧与 AI 生成图像。

如下图 8 所示，该基准测试涵盖三种不同类别的上下文图像 —— 角色（Character）、物体（Object）和场景（Scene），覆盖广泛的实体与环境。通过系统地组合这些不同类型的输入图像，本文建立了三种主要任务类别（SINGLE、MULTIPLE 和 SCENE）以及八个细粒度子任务，每个子任务包含 50 个样本。SINGLE 类别指的是基于单个上下文图像（包含角色或物体）进行的图像生成任务。MULTIPLE 类别涉及从多个上下文图像中提取的主体之间的组合交互。SCENE 类别则涉及基于参考图像中提供的特定环境上下文进行的图像生成任务。

图像与提示词对的构建采用了一种融合多模态大语言模型（MLLM）与人工标注的混合方法。首先，图像源通过 MLLM 进行分类与筛选，以剔除低质量样本。随后，人工专家依据以下三个标准对剩余图像进行筛选：（1）主体清晰可辨，（2）具有审美质量，（3）具备多样性。提示词最初由 GPT-4o 生成，随后由标注人员系统性地筛选与润色，以确保语义内容与句法结构的全面多样性。

为有效评估上下文图像生成能力并提升评估结果的可解释性，本文使用最先进的多模态大语言模型 GPT-4.1 对生成结果进行评估，如下图 9 所示。OmniContext 引入了三个评估指标：提示词遵循度（Prompt Following，PF）、主体一致性（Subject Consistency，SC）以及一个总体得分（Overall Score），该得分为 PF 与 SC 分数的几何平均值。参考 VIEScore 的既定方法，本文使用 GPT-4.1 在 0–10 分的范围内生成评分，同时提供详细的评分理由以支撑其评估。本文相信 OmniContext 基准测试将成为推动可控、基于参考的图像生成研究的重要资源。

实验

对 OmniGen2 进行全面评估，以展示其在广泛生成任务中的统一能力。首先在下表 1 中展示与当前最先进模型的整体对比，涵盖四个关键领域：视觉理解、文本生成图像、图像编辑与上下文生成。本文的结果表明，OmniGen2 在所有方面均表现出强劲的性能，尤其在上下文生成方面表现卓越。

视觉理解

本文的视觉理解能力由一个冻结的、预训练的 30 亿参数多模态大语言模型（MLLM）驱动，具体为 Qwen2.5-VL-3B-Instruct。正如上表 1 所示，OmniGen2 在 MMBench 上得分为 79.1，在 MMMU 上为 53.1，在 MM-Vet 上为 61.8。这一架构选择带来了两个显著优势。首先，通过冻结 MLLM，本文确保其强大的原生理解能力得以保留，避免因生成任务训练而导致性能下降。其次，紧凑的 30 亿参数模型使 OmniGen2 相比基于更大 MLLM 构建的统一模型更加轻量，从而显著降低训练开销，使本文的模型在实际部署中更高效、更易用。

文本生成图像（Text-to-Image Generation）

本文在两个标准基准上评估 OmniGen2 的文本生成图像能力：GenEval（评估组合理解能力）和 DPG-Bench（评估长提示词遵循能力）。本文的模型展现出极具竞争力的性能，尤其在资源效率方面表现优异。下图 10 展示了定性可视化结果。

GenEval 评估：如下表 2 所示，OmniGen2 在处理复杂组合提示词生成图像方面表现出色。结合 LLM 重写器（OmniGen2†），本文的模型获得了 0.86 的总分。这一结果超过了其他强大的统一模型如 UniWorld-V1（0.84），并且非常接近当前最先进的 BAGEL（0.88）。值得注意的是，这一接近 SOTA 的性能是在极高效率下实现的。OmniGen2 仅使用了 40 亿可训练参数，并在 1500 万对文本图像数据上训练完成。而 BAGEL 使用了 140 亿可训练参数和高达 16 亿的文本图像数据集。

DPG-Bench 评估：在 DPG-Bench 基准测试中（见下表 3），OmniGen2 获得了 83.57 的总分，再次超越 UniWorld-V1（81.38），并与领先的专用模型如 SD3-medium（84.08）相媲美。这两个不同基准上的强劲表现进一步验证了 OmniGen2 在处理复杂组合与通用长提示词方面的高效生成能力。

图像编辑

图像编辑是 OmniGen2 的核心能力之一。本文在三个多样化基准上严格评估其性能：Emu-Edit、GEdit-Bench-EN 和 ImgEdit-Bench。结果共同表明，OmniGen2 在基于指令的图像编辑方面表现出强劲性能。下图 11 展示了定性可视化结果。

如下表 4 所示，OmniGen2 在编辑准确性与图像保持之间展现出卓越的平衡。在 Emu-Edit 上，本文的模型获得了最高的 CLIP-Out 分数（），表明其在所有对比模型中最有效地应用了所请求的编辑操作。同时，其在 CLIP-I（）和 DINO（）上取得了第二高的分数，这两个指标用于衡量未编辑区域的保持程度。这一组合突显了 OmniGen2 在进行精确、局部修改的同时不干扰图像其他部分的能力。这种强大的指令遵循能力进一步得以体现。

上下文生成

OmniGen2 的一个显著特征是其执行上下文生成的能力，在下图 12 中展示了定性可视化结果。引入了 OmniContext 基准，以全面评估现有模型在该领域的表现。OmniContext 包含八个子任务，每个子任务的总体得分列于下表 6 中。作为首个在该基准上进行评估的模型，OmniGen2 建立了强有力的基线，获得了的总得分。这些结果展示了 OmniGen2 在将主体从原始背景中解耦并根据新的文本指令准确重新渲染方面的能力。

OmniGen2 在所有任务类型中相较其他竞争模型均表现出显著提升，展现出更优越的提示词遵循能力与主体一致性。

每个子任务的详细评估指标列于下表 7、8 和 9 中。从这些结果中可以得出若干重要观察结论。OmniGen2 在每个评估指标上始终超越所有开源基线模型，无论输入是单张图像还是多张图像。在闭源模型中，GPT-4o 在总体得分与提示词遵循指标上取得最高分，而 Flux.1 Kontext 在主体一致性方面表现最佳。相比之下，Gemini-2.0-Flash 在这些基准测试中的表现相对较弱。

反思能力

在反思数据集上对 OmniGen2 进行了微调，并在上图 13 中展示了其反思能力。在成功的案例中，模型能够有效地反思最初生成的图像，识别其缺陷，并在第二轮中进行适当的修正，最终生成准确满足给定指令的图像。此外，模型还展现出在适当时机终止生成过程的能力。本文的观察表明，当初始图像存在物体颜色、数量或形状等问题时，微调后的模型在进行修正方面表现尤为出色。

然而，反思模型在反思阶段和修正阶段仍然存在显著的局限性。模型可能会“过度反思”，尤其是在处理简单指令时，生成不必要的要求或对图像得出错误结论。相反，模型有时也无法根据其反思对图像进行修正，或是遵循错误的反思指令，从而导致输出质量下降。这些局限性源于当前 30 亿参数规模的多模态大语言模型（MLLM）感知能力有限，以及反思训练数据不足，可能引入偏差。在未来的工作中，本文计划扩大 MLLM 的规模，并探索强化学习方法以增强模型的反思能力。

局限性

发现 OmniGen2 存在若干局限性：

(1) 中英文提示词性能差异。如下图 14 第一行所示，英文提示词通常比中文提示词产生更好的结果。例如，当使用中文提示词时，生成图像在输入图像与编辑图像之间存在轻微不一致。

(2) 对某些指令的泛化能力有限。第二行展示了 OmniGen2 在修改人体形状方面的困难，这可能是由于现实数据中捕捉此类变化的样本较为稀缺。

(3) 对输入图像质量的敏感性。如下图 14 所示，生成输出的质量对输入图像的质量高度敏感。当本文输入一张低质量图像（通过向原始图像添加噪声生成）时，生成的图像会显著退化，细节变得明显模糊。此外，将输入图像下采样至最大尺寸为 256 像素时，会进一步导致清晰度和细节的丧失，模型准确遵循生成指令的能力也会大幅下降。

(4) 多图输入中的歧义性。下图 14 第三行表明，当提示词明确指定物体与其来源图像之间的对应关系（例如，“来自图像1的鸟和来自图像2的桌子”）时，模型的性能会有所提升，这表明其对多源指令中的歧义较为敏感。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述