🌐 社群导航
🔗 点击加入➡️【AIGC/LLM/MLLM/3D/自动驾驶】 技术交流群
数源AI 最新论文解读系列

论文名:EasyControl: Adding Efficient and Flexible Control for Diffusion Transformer
论文链接:https://arxiv.org/pdf/2503.07027
开源代码:https://github.com/Xiaojiu-z/EasyControl

导读
近年来,基于扩散模型的图像生成系统经历了显著的架构演变。技术发展轨迹已逐渐从早期基于UNet的架构转向基于Transformer的DiT(扩散Transformer)模型。在基于UNet的时代,如SD 1.5/XL等预训练模型建立了一个繁荣的生态系统,催生了一系列即插即用的条件生成扩展模块,如ControlNet、IP-Adapter等。这些模块通过冻结预训练参数并引入额外的适配器或编码器架构,实现了预训练模型的灵活扩展,从而推动了文本到图像生成技术的广泛应用。
简介
基于Unet的扩散模型(如ControlNet和IP-Adapter)近期取得了进展,引入了有效的空间和主体控制机制。然而,DiT(扩散变压器,Diffusion Transformer)架构在高效灵活控制方面仍面临挑战。为解决这一问题,我们提出了EasyControl,这是一个旨在将条件引导的扩散变压器统一起来的新颖框架,具有高效性和灵活性。我们的框架基于三项关键创新。首先,我们引入了轻量级条件注入低秩自适应(LoRA)模块。该模块独立处理条件信号,是一种即插即用的解决方案。它避免修改基础模型的权重,确保与定制模型兼容,并能灵活注入各种条件。值得注意的是,即使仅在单条件数据上进行训练,该模块也支持和谐且稳健的零样本多条件泛化。其次,我们提出了位置感知训练范式。这种方法将输入条件标准化为固定分辨率,允许生成具有任意宽高比和灵活分辨率的图像。同时,它优化了计算效率,使框架在实际应用中更具实用性。第三,我们开发了一种结合键值缓存(KV Cache)技术的因

最低0.47元/天 解锁文章
1202

被折叠的 条评论
为什么被折叠?



