万能图像生成模型OmniGen,附Comfyui本地部署及一键整合包

智源开源了一种新的图像生成模型OmniGen,官方称为统一图像生成模型。我称之为万能图像生成模型是因为OmniGen不仅能文生图,保持人物一致性的图生图,还能使用提示词对进行图像编辑、多图编辑融合等,几乎囊括了目前图像生成及其他辅助模型的功能。

在这里插入图片描述
在这里插入图片描述

北京智源人工智能研究院(Beijing Academy of Artificial Intelligence,BAAI)成立于2018年,是由北京大学、清华大学、中国科学院、百度、小米、字节跳动、美团点评等多家单位共同建立的新型研发机构。

智源介绍OmniGen的初衷是:大型语言模型(LLMs)的出现统一了语言生成任务,并彻底改变了人机交互。然而,在图像生成领域,能够在单个框架内处理各种任务的统一模型在很大程度上仍未得到探索。OmniGen的目标就是统一目前图像生成的所有功能。

除了文生图模型,在需要一些控制条件生成图像的情况下,就要用到其他辅助模型。例如在参考人物姿态生成图像时需要用到ControlNet系列模型,在参考原图角色生成一致性人物时需要用到IP Adapter类模型。而OmniGen 是一种用于统一图像生成的新扩散模型。与现有的文生图模型不同,OmniGen不再需要ControlNet或IP Adapter等额外模块来处理各种控制条件。

OmniGen功能

• 文生图

这是目前图像生成模型的基本功能,从测试效果看还不错。

• 图像编辑

OmniGen 具备良好的图像编辑能力,也能进行图像的文本生成。

• 指定人物生成

OmniGen 类似 InstandID、Pulid 等模型生成角色一致性图像等能力,即:输入具有单个对象的图像,理解并遵循指令,输出基于该对象的新图像。

不同于InstandID、Pulid的是,OmniGen还能从多个人物中指定生成。

• 指代表达生成

这是OmniGen 最独特的功能:能够从包含多个对象的图像中,识别指令所指代的对象并生成新的图像。

OmniGen 只需要根据提示词指令从多张图像中定位目标对象(最多能选择3张图),并生成遵循指令的新图像,而无需任何额外的模块和操作。

• 通用图像条件生成

这是OmniGen 支持类似 ControlNet 根据特定条件生成图像的能力。目前主要是根据参考人物骨架Openpose生成,另一能力是根据参考人物深度图生成。

不同于主流文生图模型需要Controlnet来辅助进行条件控制生成,OmniGen 仅凭单个模型完成整个 ControlNet 流程:直接使用 OmniGen 对原图提取视觉条件,并基于所提取的条件生成图像,无需额外处理器。而且更简单的是,OmniGen 直接根据参考图和提示词一键出图,不像ControlNet 还需要先生成骨骼图或深度图。

• 其他代开发功能

除了以上OmniGen1.0已能实现的功能外,官方还表示OmniGen还有更多的功能,例如更多的Controlnet功能,线条、软边生成等。

经典计算机视觉任务:图像去噪、边缘检测、姿态估计等

甚至能像LLM一样具有一定的上下文学习能力 (In-context Learning) ,根据理解操作。

技术概览

OmniGen 的核心设计原则是:简洁和有效。最大程度舍弃了各种额外模块,OmniGen 的基本架构为:一个 Transformer 模型和一个 VAE 模块,共 38亿 参数。其中,Transformer 继承于 Phi3-mini 模型,图像内部改用双向注意力 (Bidirectional Attention) 以契合图像数据特性。整体架构如下所示:

为实现强大的通用和泛化能力,研究人员需要基于大规模和多样化的数据集训练模型。然而,在图像生成领域,尚无一个可用的通用数据集。为此,研究团队构建了首个大规模且多样化的统一图像生成数据集 X2I,意为「Anything to Image」。其中,不同任务的数据格式被重新组织和统一,以便于管理和使用。X2I 数据集包含约 1 亿图像,未来经审查等流程后将开源,旨在进一步推动通用图像生成领域的发展。下图简要展示了 X2I 数据集的一些示例:

OmniGen 使用MIT许可证,生成图像可商业。

使用及本地部署

官方提供了在线使用网页。需要注意的是提示词的格式,其中指代图像需要以<|image_1|>来表达。

熟悉Comfyui的朋友可以安装OmniGen 自定义节点,可以实现所有上述官方功能,并且不受NSFW限制。

另外本地部署还可以使用一键整合包,直接解压即用。这里采用刘悦的整合包,使用界面跟官方网页一样。显存要求不高,只要8G就可使用。

资料软件免费放送

次日同一发放请耐心等待

学好 AI绘画 不论是就业还是做副业赚钱都不错,但要学会 AI绘画 还是要有一个学习规划。最后大家分享一份全套的 AI绘画 学习资料,给那些想学习 AI绘画 的小伙伴们一点帮助!

需要的可以扫描下方优快云官方认证二维码免费领取【保证100%免费】

在这里插入图片描述

**一、AIGC所有方向的学习路线**

AIGC所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照下面的知识点去找对应的学习资源,保证自己学得较为全面。

在这里插入图片描述

在这里插入图片描述

二、AIGC必备工具

工具都帮大家整理好了,安装就可直接上手!
在这里插入图片描述

三、最新AIGC学习笔记

当我学到一定基础,有自己的理解能力的时候,会去阅读一些前辈整理的书籍或者手写的笔记资料,这些笔记详细记载了他们对一些技术点的理解,这些理解是比较独到,可以学到不一样的思路。
在这里插入图片描述
在这里插入图片描述

四、AIGC视频教程合集

观看全面零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。

在这里插入图片描述

五、实战案例

纸上得来终觉浅,要学会跟着视频一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
在这里插入图片描述
这份完整版的学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】

在这里插入图片描述

### 关于 OmniGen部署方法 对于 OmniGen部署,官方尚未提供特定的部署文档。然而,基于已发布的资源,可以推测部署过程可能涉及以下几个方面: #### 1. 环境准备 为了成功部署 OmniGen,需先设置合适的运行环境。这通常括安装必要的依赖库以及配置硬件加速设备(如 GPU)。具体操作可参照 `docs/environment_setup.md` 文件中的说明[^1]。 #### 2. 模型加载与初始化 模型的加载和初始化是部署的关键环节之一。通过读取预训练好的权重文件来恢复模型状态,并完成相应的参数设定。这部分细节可以在 `docs/model_loading.md` 中找到指导信息。 #### 3. 接口开发 为了让应用程序能够调用 OmniGen 进行图像生成任务,开发者需要构建API接口服务。此部分的设计思路和技术选型建议参阅 `docs/api_development.md` 文档获取更多信息。 #### 4. 性能优化 针对不同应用场景下的性能需求,对部署后的系统进行针对性调整至关重要。有关如何提高吞吐量、降低延迟等方面的技巧,请查看 `docs/performance_optimization.md` 获取最佳实践案例。 虽然目前没有直接提及具体的部署手册,但从上述提到的相关章节中可以获得足够的技术支持以实现顺利部署。如果希望获得更详细的帮助,则推荐访问项目主页或加入社区讨论群组寻求进一步的支持。 ```bash # 示例命令用于创建虚拟环境并激活它 python -m venv omni-gen-env source omni-gen-env/bin/activate ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值