Tiamat AI提出EasyControl！基于DiT的条件引导生成统一新框架！

最新推荐文章于 2025-07-16 15:23:49 发布

原创

最新推荐文章于 2025-07-16 15:23:49 发布 · 890 阅读

23 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #深度学习 #ai

🌐 社群导航

🔗 点击加入➡️【AIGC/LLM/MLLM/3D/自动驾驶】技术交流群

🔗 点击加入➡️【2-3月CCF投稿】交流群

数源AI 最新论文解读系列

论文名：EasyControl: Adding Efficient and Flexible Control for Diffusion Transformer

论文链接：https://arxiv.org/pdf/2503.07027

开源代码：https://github.com/Xiaojiu-z/EasyControl

导读

近年来，基于扩散模型的图像生成系统经历了显著的架构演变。技术发展轨迹已逐渐从早期基于UNet的架构转向基于Transformer的DiT（扩散Transformer）模型。在基于UNet的时代，如SD 1.5/XL等预训练模型建立了一个繁荣的生态系统，催生了一系列即插即用的条件生成扩展模块，如ControlNet、IP-Adapter等。这些模块通过冻结预训练参数并引入额外的适配器或编码器架构，实现了预训练模型的灵活扩展，从而推动了文本到图像生成技术的广泛应用。

简介

基于Unet的扩散模型（如ControlNet和IP-Adapter）近期取得了进展，引入了有效的空间和主体控制机制。然而，DiT（扩散变压器，Diffusion Transformer）架构在高效灵活控制方面仍面临挑战。为解决这一问题，我们提出了EasyControl，这是一个旨在将条件引导的扩散变压器统一起来的新颖框架，具有高效性和灵活性。我们的框架基于三项关键创新。首先，我们引入了轻量级条件注入低秩自适应（LoRA）模块。该模块独立处理条件信号，是一种即插即用的解决方案。它避免修改基础模型的权重，确保与定制模型兼容，并能灵活注入各种条件。值得注意的是，即使仅在单条件数据上进行训练，该模块也支持和谐且稳健的零样本多条件泛化。其次，我们提出了位置感知训练范式。这种方法将输入条件标准化为固定分辨率，允许生成具有任意宽高比和灵活分辨率的图像。同时，它优化了计算效率，使框架在实际应用中更具实用性。第三，我们开发了一种结合键值缓存（KV Cache）技术的因

最低0.47元/天解锁文章