项目地址:GitHub - VectorSpaceLab/OmniGen
项目目前还不完整,论文展现的通用性十分强大,就是不知道稳定性怎么样。
摘要
大型语言模型 (LLM) 的出现统一了语言生成任务,并彻底改变了人机交互。然而,在图像生成领域,能够在单个框架内处理各种任务的统一模型在很大程度上仍未得到探索。在这项工作中,我们介绍了 OmniGen,这是一种用于统一图像生成的新扩散模型。与流行的扩散模型(例如 Stable Diffusion)不同,OmniGen 不再需要 ControlNet 或 IP 适配器等额外模块来处理各种控制条件。OmniGen 具有以下特点:1) 统一:OmniGen 不仅展示了文本到图像的生成功能,而且本身也支持各种下游任务,例如图像编辑、主题驱动生成和视觉条件生成。此外,OmniGen 可以通过将经典的计算机视觉任务转换为图像生成任务(例如边缘检测和人体姿势识别)来处理这

最低0.47元/天 解锁文章
939

被折叠的 条评论
为什么被折叠?



