字节提出InfiniteYou！基于DiT的灵活且高保真IP 保持图像生成新框架！

最新推荐文章于 2025-04-25 11:17:41 发布

原创

最新推荐文章于 2025-04-25 11:17:41 发布 · 1.2k 阅读

23 ·

CC 4.0 BY-SA版权

文章标签：

#tcp/ip #网络协议 #网络 #人工智能 #深度学习 #ai

🌐 社群导航

🔗点击加入➡️【AIGC/LLM/MLLM/3D/自动驾驶】技术交流群

🔗点击加入➡️【2-3月CCF投稿】交流群

最新论文解读系列

论文名：InfiniteYou: Flexible Photo Recrafting While Preserving Your Identity

论文链接：https://arxiv.org/pdf/2503.16418

开源代码：https://bytedance.github.io/InfiniteYou

导读

保留身份特征的图像生成旨在使用自由形式的文本描述重塑特定人物的照片，同时保留面部特征。这项任务具有挑战性，但益处颇多。先前的方法主要基于以U - Net为基础的文本到图像扩散模型开发，如稳定扩散XL（Stable Diffusion XL，SDXL）。然而，由于基础模型的生成能力有限，生成图像的质量仍然不足。最近，扩散变压器（Diffusion Transformers，DiTs）在内容创作方面取得了显著进展。特别是，最新发布的最先进的整流流DiTs，如FLUX和SD3.5，展示了令人惊叹的图像生成质量。因此，探索能够利用DiTs的巨大潜力来实现保留身份特征的图像生成等下游应用的解决方案至关重要。

简介

实现灵活且高保真的保留身份特征的图像生成仍然极具挑战性，特别是对于像FLUX这样的先进扩散变压器（Diffusion Transformers，DiTs）而言。我们推出了InfiniteYou（InfU），它是最早利用DiTs完成此任务的强大框架之一。InfU解决了现有方法的重大问题，如身份相似度不足、文本 - 图像对齐不佳以及生成质量和美学效果较低等。InfU的核心是InfuseNet，这一组件通过残差连接将身份特征注入到DiT基础模型中，在保持生成能力的同时提高了身份相似度。一种多阶段训练策略，包括预训练和使用合成单人多样本（single - person - multiple - sample，SPMS）数据进行有监督的微调（supervised fine - tuning，SFT），进一步改善了文本 - 图像对齐，提高了图像质量，并缓解了面部复制粘贴问题。大量实验表明，InfU达到了当前最优性能，超越了现有的基线模型。此外，InfU的即插即用设计确保了与各种现有方法的兼容性，为更广泛