智源开源了一种新的图像生成模型OmniGen,官方称为统一图像生成模型。我称之为万能图像生成模型是因为OmniGen不仅能文生图,保持人物一致性的图生图,还能使用提示词对进行图像编辑、多图编辑融合等,几乎囊括了目前图像生成及其他辅助模型的功能。
北京智源人工智能研究院(Beijing Academy of Artificial Intelligence,BAAI)成立于2018年,是由北京大学、清华大学、中国科学院、百度、小米、字节跳动、美团点评等多家单位共同建立的新型研发机构。
智源介绍OmniGen的初衷是:大型语言模型(LLMs)的出现统一了语言生成任务,并彻底改变了人机交互。然而,在图像生成领域,能够在单个框架内处理各种任务的统一模型在很大程度上仍未得到探索。OmniGen的目标就是统一目前图像生成的所有功能。
除了文生图模型,在需要一些控制条件生成图像的情况下,就要用到其他辅助模型。例如在参考人物姿态生成图像时需要用到ControlNet系列模型,在参考原图角色生成一致性人物时需要用到IP Adapter类模型。而OmniGen 是一种用于统一图像生成的新扩散模型。与现有的文生图模型不同,OmniGen不再需要ControlNet或IP Adapter等额外模块来处理各种控制条件。
OmniGen功能
• 文生图
这是目前图像生成模型的基本功能,从测试效果看还不错。
• 图像编辑
OmniGen 具备良好的图像编辑能力,也能进行图像的文本生成。
• 指定人物生成
OmniGen 类似 InstandID、Pulid 等模型生成角色一致性图像等能力,即:输入具有单个对象的图像,理解并遵循指令,输出基于该对象的新图像。
不同于InstandID、Pulid的是,OmniGen还能从多个人物中指定生成。
• 指代表达生成
这是OmniGen 最独特的功能:能够从包含多个对象的图像中,识别指令所指代的对象并生成新的图像。
OmniGen 只需要根据提示词指令从多张图像中定位目标对象(最多能选择3张图),并生成遵循指令的新图像,而无需任何额外的模块和操作。
• 通用图像条件生成
这是OmniGen 支持类似 ControlNet 根据特定条件生成图像的能力。目前主要是根据参考人物骨架Openpose生成,另一能力是根据参考人物深度图生成。
不同于主流文生图模型需要Controlnet来辅助进行条件控制生成,OmniGen 仅凭单个模型完成整个 ControlNet 流程:直接使用 OmniGen 对原图提取视觉条件,并基于所提取的条件生成图像,无需额外处理器。而且更简单的是,OmniGen 直接根据参考图和提示词一键出图,不像ControlNet 还需要先生成骨骼图或深度图。
• 其他代开发功能
除了以上OmniGen1.0已能实现的功能外,官方还表示OmniGen还有更多的功能,例如更多的Controlnet功能,线条、软边生成等。
经典计算机视觉任务:图像去噪、边缘检测、姿态估计等
甚至能像LLM一样具有一定的上下文学习能力 (In-context Learning) ,根据理解操作。
技术概览
OmniGen 的核心设计原则是:简洁和有效。最大程度舍弃了各种额外模块,OmniGen 的基本架构为:一个 Transformer 模型和一个 VAE 模块,共 38亿 参数。其中,Transformer 继承于 Phi3-mini 模型,图像内部改用双向注意力 (Bidirectional Attention) 以契合图像数据特性。整体架构如下所示:
为实现强大的通用和泛化能力,研究人员需要基于大规模和多样化的数据集训练模型。然而,在图像生成领域,尚无一个可用的通用数据集。为此,研究团队构建了首个大规模且多样化的统一图像生成数据集 X2I,意为「Anything to Image」。其中,不同任务的数据格式被重新组织和统一,以便于管理和使用。X2I 数据集包含约 1 亿图像,未来经审查等流程后将开源,旨在进一步推动通用图像生成领域的发展。下图简要展示了 X2I 数据集的一些示例:
OmniGen 使用MIT许可证,生成图像可商业。
使用及本地部署
官方提供了在线使用网页。需要注意的是提示词的格式,其中指代图像需要以<|image_1|>来表达。
熟悉Comfyui的朋友可以安装OmniGen 自定义节点,可以实现所有上述官方功能,并且不受NSFW限制。
另外本地部署还可以使用一键整合包,直接解压即用。这里采用刘悦的整合包,使用界面跟官方网页一样。显存要求不高,只要8G就可使用。
资料软件免费放送
次日同一发放请耐心等待
学好 AI绘画 不论是就业还是做副业赚钱都不错,但要学会 AI绘画 还是要有一个学习规划。最后大家分享一份全套的 AI绘画 学习资料,给那些想学习 AI绘画 的小伙伴们一点帮助!
需要的可以扫描下方优快云官方认证二维码免费领取【保证100%免费】
**一、AIGC所有方向的学习路线**
AIGC所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照下面的知识点去找对应的学习资源,保证自己学得较为全面。
二、AIGC必备工具
工具都帮大家整理好了,安装就可直接上手!
三、最新AIGC学习笔记
当我学到一定基础,有自己的理解能力的时候,会去阅读一些前辈整理的书籍或者手写的笔记资料,这些笔记详细记载了他们对一些技术点的理解,这些理解是比较独到,可以学到不一样的思路。
四、AIGC视频教程合集
观看全面零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
五、实战案例
纸上得来终觉浅,要学会跟着视频一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
这份完整版的学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】