OpenBayes 教程上新丨多主体驱动生成能力达SOTA，字节UNO模型可处理多种图像生成任务

最新推荐文章于 2026-01-01 13:05:56 发布

原创

最新推荐文章于 2026-01-01 13:05:56 发布 · 1.1k 阅读

12 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #图像处理 #AI作画 #大模型 #主体驱动

如今，主体驱动生成 (subject-driven generation) 已经广泛应用于图像生成领域，但其在数据可扩展性和主体扩展性方面仍面临诸多挑战，例如从单主体数据集转向多主体并对其进行扩展尤为困难，目前的热门研究方向是单主体，在面对多主体生成任务时表现欠佳。

针对于此，字节跳动 Intelligent Creation 团队利用扩散 Transformer 模型本身具备的上下文生成能力，生成了具有高度一致性的多主体配对数据，并以 FLUX 为基础模型提出了 UNO 模型，能够处理图像生成任务中的不同输入条件。其借助「模型-数据共同进化」的新范式，在优化模型性能的同时，丰富训练数据，提高生成图像的质量和多样性。研究人员在 DreamBench 和多主体驱动生成的基准测试上进行了大量实验。UNO 在这两项任务中均取得了最高的 DINO 和 CLIP-I 分数，表明其在主体相似性和文本可控性方面表现出色，能力达 SOTA 级别。

多主体驱动生成评测结果，UNO 达 SOTA

目前「UNO：通用定制化图像生成」教程已上线至 OpenBayes 公共教程中，感兴趣的小伙伴快来亲自上手试一试吧！

教程地址：

https://go.openbayes.com/zCYdP

Demo 运行<

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

OpenBayes

关注关注

10
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

部署字节跳动UNO在linux上

xjkys的博客

04-14

454

字节跳动UNO项目的README文件没有写的很清楚,没有指出具体的环境变量设置。添加server_name=“0.0.0.0”如果gradio界面想要开放给他人访问的话。在app.py文件下进行修改。

多主体驱动生成能力达SOTA，字节UNO模型可处理多种图像生成任务

HyperAI超神经

04-22

582

「UNO：通用定制化图像生成」教程已上线至 HyperAI超神经官网的教程板块中，欢迎体验！

参与评论您还未登录，请先登录后发表或查看评论

惊艳！单模型统一多图个性化生成！字节重磅开源UNO, FLUX版训练、推理、权重全开源！

m0_59162559的博客

04-10

725

提出了模型-数据协同进化范式，突破了传统定制化图像生成中数据瓶颈的限制。开发了渐进式数据生成框架和通用定制化模型UNO，实现了从单主体到多主体的高质量图像生成。在多个任务中取得了卓越的性能，包括单主体和多主体驱动的图像生成，并且能泛化到id、tryon、style等场景

政安晨【零基础玩转各类开源AI项目】UNO —— 让设计师破防的利器（该项目专注提升AI图像生成的可控性）：演绎该项目部署应用的全过程

政安晨——致力于AI人工智能数字互动领域

04-15

899

尽管主题驱动生成在图像生成领域因其广泛的应用而得到了深入的研究，但它在数据可扩展性和主题可扩展性方面仍然面临挑战。对于第一个挑战，从构建单主题数据集转向多主题数据集并进行扩展尤其困难。对于第二个挑战，大多数近期的方法集中在单主题生成上，这使得在处理多主题场景时难以应用。在本研究中，项目提出了一种高度一致的数据合成流程来应对这一挑战......

字节跳动AI团队推出UNO：图像“魔法师“实现从一到多主题的自由创作

zhidingkeji的博客

07-14

437

比如，对于"帽子"这个类别，AI会生成"彩虹条纹帽"、"蘑菇形状帽"、"军官帽"、"巴拿马帽"等更具体的描述，甚至还包括带有文字装饰的创意设计，如"在帽檐上绣着'保持冷静'字样的渔夫帽"。这个过程就像使用一个特殊的"双联画"模板，让AI在同一幅图像中生成两个相关的场景。他们提出了一个全新的"模型-数据协同进化"理念，这种方法就像培养一个能够自我提升的学习系统——能力较弱的初级模型通过生成训练数据来帮助更强大的高级模型学习，而高级模型又能生成更好的数据来训练下一代模型，形成了一个正向循环的自我完善机制。

【2025开源神器】字节UNO虚拟试衣实测｜AI换装技术深度解析

2401_84815887的博客

05-09

1537

字节开源 UNO FLUX 版：单模型实现多图个性化生成，训练推理权重全公开

Black_Rock_br的博客

04-17

1467

在数字浪潮中，图像生成技术一直是创意与科技的前沿阵地。然而，传统模型的局限性如同枷锁，束缚着创新的步伐。如今，字节跳动带着 UNO FLUX 版强势来袭，以单模型架构打破常规，实现多图个性化生成的突破。更令人振奋的是，字节跳动将训练、推理代码及模型权重全盘公开，这不仅是一次开源，更是一场技术的盛宴，为全球开发者和研究人员提供了无限可能，开启了图像生成的新纪元。提出了一种模型与数据协同进化的创新范式，成功突破了传统定制化图像生成中数据资源受限的瓶颈。

字节开源一致性生成扩散模型：UNO

直达开源前线，冲冲冲！

04-15

1563

UNO 模型通过创新的数据合成管道和模型架构，显著提升了多主体生成的一致性和可控性。项目开源了完整的代码和模型，为学术研究提供了宝贵的资源。用户在使用时需遵守相关许可协议，并确保合规使用。

字节开源全新 Flux 可控模型——从少到多的泛化：通过上下文生成解锁更多可控性

weixin_41446370的博客

04-10

684

尽管主体驱动生成技术因其广泛的应用而在图像生成领域得到了广泛的探索，但它在数据可扩展性和主体扩展性方面仍面临挑战。就第一个挑战而言，从策划单主体数据集到多主体数据集并对其进行扩展尤为困难。其次，最近的大多数方法都是以单主体生成为中心，因此在处理多主体情况时很难应用。在本研究中，我们提出了一种高度一致的数据合成管道来应对这一挑战。该管道利用扩散变换器内在的上下文生成能力，生成高一致性的多主体配对数据。此外，我们还引入了 UNO，它由渐进式跨模态配准和通用旋转位置嵌入组成。

Math - 中心化，标准化和归一化

guoqx的专栏

12-30

652

摘要：归一化是将数据转换为统一尺度的处理方法，消除量纲差异，便于比较与分析。常见方法包括Min-Max缩放（线性映射到固定区间）和Z-score标准化（均值0，标准差1）。Min-Max适用于需要固定范围的情况，但对异常值敏感；Z-score适用于单位不同或存在离群值的场景。归一化在数据分析、信号处理和机器学习中广泛应用，需根据数据分布和算法需求选择合适方法，并注意保存参数以确保一致性。流程包括数据清洗、方法选择、拟合转换和效果评估。

人工智能基础篇：概念性名词浅谈（第十五讲）

m0_53104033的博客

12-31

667

本文介绍了两种改进的自编码器模型。正则自编码器通过在损失函数中添加正则化项，实现了对稀疏表示、噪声鲁棒性等特性的学习，突破了传统自编码器的容量限制。随机编码器则通过向编解码器注入噪声，形成生成模型架构，其训练目标是最小化输入与重构间的负对数似然。文章还特别介绍了针对矩阵数据的改进版本MRAE及其在异常检测中的应用。这些模型通过不同的正则化机制，有效提升了自编码器的特征学习能力。

2025年终总结

李梨同学的博客

12-31

600

以往，想把一个产品从想法变成现实，往往离不开一整条由“螺丝钉”拼出来的流水线：需求评审、产品对接、研发排期、测试上线，每一步都要仰赖他人的时间与资源。我试图推倒技术的高墙，用通俗有趣的语言，把晦涩的AI原理“翻译”给更多人听。这条路注定充满了不确定性。正是这风暴般的时代，打破了旧有的壁垒，赋予了像我这样曾经“不务正业”的个体前所未有的杠杆。这一年，我拒绝做一个默默敲代码的“独行侠”，决定走出去，构建自己的知识品牌。三年后再次站在时间的节点回望，这一年于我而言，是从“被浪推着走”到“学会造浪”的转折点。

GitHub 热榜项目 - 日榜(2026-1-1)

最新发布

CoderJia的学习之路

01-01

381

本期GitHub热榜显示AI应用开发正全面渗透各技术领域，前沿项目聚焦于解决实际工程问题。Gemini的电脑使用预览和Timescale的pg-aiguide展示了AI与开发工具深度整合，通过MCP服务器提升代码生成质量。Pathway框架和docetl系统凸显流式ETL与LLM管道技术成熟，推动实时数据分析与RAG应用落地。同时，来自ResembleAI的Chatterbox和TrendRadar分别代表语音合成与智能信息聚合的技术突破，Deep-Live-Cam则体现单图视频生成技术的平民化趋势。这些项

第N11周：seq2seq翻译实战-Pytorch复现

m0_46260522的博客

12-26

988

5.2 注意力解码器（AttnDecoderRNN）7.2 训练迭代主循环。

【AI学习-comfyUI学习-第二十五节-Shuffle洗牌模式布局+contronet其他应用结合-各个部分学习】

qq_22146161的博客

12-27

1404

最近，学习comfyUI，这也是AI的一部分，想将相关学习到的东西尽可能记录下来。不断学习摸索中。

2025年智能体架构与主流技术深度研究报告：从生成式AI迈向自主执行层

chengoodflower的博客

12-30

744

在2025年，智能体的记忆技术已经超越了简单的向量检索增强生成（Naive RAG），向着结构化、分层化和具有自我管理能力的**操作系统级记忆（OS-Level Memory）**演进。这简化了智能体的架构，使得开发者无需维护独立的推理服务即可实现高质量的检索。：在多智能体系统（Multi-Agent Systems）中，o3 被广泛用于担任“编排者（Orchestrator）”或“团队领导（Team Lead）”的角色，负责将模糊的用户需求转化为具体的子任务序列，并分配给其他更快速的模型去执行。

No105:甘地&AI：智能的非暴力变革与社会智慧

weixin_43135215的博客

12-28

760

在追求AI社会智能进步的同时，我们需要甘地式的社会智慧和人文精神，让智能不仅能够处理数据，更能够理解人性、促进和谐、实现公正、服务人类，成为真正推动社会进步和人类福祉的智能力量。

Photoshop 图形与图像处理技术——第5章：路径与形状的应用

2401_82750246的博客

12-30

770

本文详细介绍了Photoshop中路径和形状工具的应用方法。主要内容包括：1.路径工具的使用技巧，包括钢笔工具、路径选择工具的操作方法，以及路径的编辑、填充和描边等功能；2.形状工具的绘制方法，涵盖矩形、多边形、直线等基本形状的创建与编辑；3.路径与选区之间的转换技巧；4.通过实例演示如何运用路径和形状工具完成"直降专区"文字变形效果和背景设计。文章系统讲解了路径和形状工具的各项参数设置，并提供了实用的操作技巧，是掌握Photoshop矢量绘图功能的重要参考。

情绪经济下的AI应用怎么设计？6个APP原型设计案例拆解

PM_H2503的博客

12-30

460

这篇文章主要参考了3个AI恋爱交友、AI虚拟伴侣、AI角色互动类APP原型案例，拆解它们的核心页面设计思路。顺带也整理了3个相对小众、但挺有启发的AI类APP原型素材，偏设计师与产品经理视角。