万能图像生成模型OmniGen，附Comfyui本地部署及一键整合包

最新推荐文章于 2025-02-13 11:16:53 发布

AI画师安琪

最新推荐文章于 2025-02-13 11:16:53 发布

阅读量5.6k

点赞数 18

文章标签：人工智能 midjourney AI作画 stable diffusion ai绘画 AIGC comfyUI

本文链接：https://blog.youkuaiyun.com/2401_85725028/article/details/143507426

版权

智源开源了一种新的图像生成模型OmniGen，官方称为统一图像生成模型。我称之为万能图像生成模型是因为OmniGen不仅能文生图，保持人物一致性的图生图，还能使用提示词对进行图像编辑、多图编辑融合等，几乎囊括了目前图像生成及其他辅助模型的功能。

在这里插入图片描述

北京智源人工智能研究院（Beijing Academy of Artificial Intelligence，BAAI）成立于2018年，是由北京大学、清华大学、中国科学院、百度、小米、字节跳动、美团点评等多家单位共同建立的新型研发机构。

智源介绍OmniGen的初衷是：大型语言模型（LLMs）的出现统一了语言生成任务，并彻底改变了人机交互。然而，在图像生成领域，能够在单个框架内处理各种任务的统一模型在很大程度上仍未得到探索。OmniGen的目标就是统一目前图像生成的所有功能。

除了文生图模型，在需要一些控制条件生成图像的情况下，就要用到其他辅助模型。例如在参考人物姿态生成图像时需要用到ControlNet系列模型，在参考原图角色生成一致性人物时需要用到IP Adapter类模型。而OmniGen 是一种用于统一图像生成的新扩散模型。与现有的文生图模型不同，OmniGen不再需要ControlNet或IP Adapter等额外模块来处理各种控制条件。

OmniGen功能

• 文生图

这是目前图像生成模型的基本功能，从测试效果看还不错。

• 图像编辑

OmniGen 具备良好的图像编辑能力，也能进行图像的文本生成。

• 指定人物生成

OmniGen 类似 InstandID、Pulid 等模型生成角色一致性图像等能力，即：输入具有单个对象的图像，理解并遵循指令，输出基于该对象的新图像。

不同于InstandID、Pulid的是，OmniGen还能从多个人物中指定生成。

• 指代表达生成

这是OmniGen 最独特的功能：能够从包含多个对象的图像中，识别指令所指代的对象并生成新的图像。

OmniGen 只需要根据提示词指令从多张图像中定位目标对象（最多能选择3张图），并生成遵循指令的新图像，而无需任何额外的模块和操作。

• 通用图像条件生成

这是OmniGen 支持类似 ControlNet 根据特定条件生成图像的能力。目前主要是根据参考人物骨架Openpose生成，另一能力是根据参考人物深度图生成。

不同于主流文生图模型需要Controlnet来辅助进行条件控制生成，OmniGen 仅凭单个模型完成整个 ControlNet 流程：直接使用 OmniGen 对原图提取视觉条件，并基于所提取的条件生成图像，无需额外处理器。而且更简单的是，OmniGen 直接根据参考图和提示词一键出图，不像ControlNet 还需要先生成骨骼图或深度图。

• 其他代开发功能

除了以上OmniGen1.0已能实现的功能外，官方还表示OmniGen还有更多的功能，例如更多的Controlnet功能，线条、软边生成等。

经典计算机视觉任务：图像去噪、边缘检测、姿态估计等

甚至能像LLM一样具有一定的上下文学习能力 (In-context Learning) ，根据理解操作。

技术概览

OmniGen 的核心设计原则是：简洁和有效。最大程度舍弃了各种额外模块，OmniGen 的基本架构为：一个 Transformer 模型和一个 VAE 模块，共 38亿参数。其中，Transformer 继承于 Phi3-mini 模型，图像内部改用双向注意力 (Bidirectional Attention) 以契合图像数据特性。整体架构如下所示：

为实现强大的通用和泛化能力，研究人员需要基于大规模和多样化的数据集训练模型。然而，在图像生成领域，尚无一个可用的通用数据集。为此，研究团队构建了首个大规模且多样化的统一图像生成数据集 X2I，意为「Anything to Image」。其中，不同任务的数据格式被重新组织和统一，以便于管理和使用。X2I 数据集包含约 1 亿图像，未来经审查等流程后将开源，旨在进一步推动通用图像生成领域的发展。下图简要展示了 X2I 数据集的一些示例：