字节提出InfiniteYou!基于DiT的灵活且高保真IP 保持图像生成新框架!

🌐 社群导航

🔗点击加入➡️【AIGC/LLM/MLLM/3D/自动驾驶】 技术交流群

🔗点击加入➡️【2-3月CCF投稿】交流群

最新论文解读系列

论文名:InfiniteYou: Flexible Photo Recrafting While Preserving Your Identity

论文链接:https://arxiv.org/pdf/2503.16418

开源代码:https://bytedance.github.io/InfiniteYou

导读

保留身份特征的图像生成旨在使用自由形式的文本描述重塑特定人物的照片,同时保留面部特征。这项任务具有挑战性,但益处颇多。先前的方法主要基于以U - Net为基础的文本到图像扩散模型开发,如稳定扩散XL(Stable Diffusion XL,SDXL)。然而,由于基础模型的生成能力有限,生成图像的质量仍然不足。最近,扩散变压器(Diffusion Transformers,DiTs)在内容创作方面取得了显著进展。特别是,最新发布的最先进的整流流DiTs,如FLUX和SD3.5,展示了令人惊叹的图像生成质量。因此,探索能够利用DiTs的巨大潜力来实现保留身份特征的图像生成等下游应用的解决方案至关重要。

简介

实现灵活且高保真的保留身份特征的图像生成仍然极具挑战性,特别是对于像FLUX这样的先进扩散变压器(Diffusion Transformers,DiTs)而言。我们推出了InfiniteYou(InfU),它是最早利用DiTs完成此任务的强大框架之一。InfU解决了现有方法的重大问题,如身份相似度不足、文本 - 图像对齐不佳以及生成质量和美学效果较低等。InfU的核心是InfuseNet,这一组件通过残差连接将身份特征注入到DiT基础模型中,在保持生成能力的同时提高了身份相似度。一种多阶段训练策略,包括预训练和使用合成单人多样本(single - person - multiple - sample,SPMS)数据进行有监督的微调(supervised fine - tuning,SFT),进一步改善了文本 - 图像对齐,提高了图像质量,并缓解了面部复制粘贴问题。大量实验表明,InfU达到了当前最优性能,超越了现有的基线模型。此外,InfU的即插即用设计确保了与各种现有方法的兼容性,为更广泛

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值