(2023,FreeU,扩散 U-Net,动态缩放因子)扩散 U-Net 中的免费午餐

FreeU: Free Lunch in Diffusion U-Net

公和众和号:EDPJ(进 Q 交流群:922230617 或加 VX:CV_EDPJ 进 V 交流群)

目录

0. 摘要

2. 方法

2.1 扩散模型

2.2. 扩散 U-Net 如何执行去噪?

2.3. 扩散U-Net中的免费午餐

3. 实验


0. 摘要

在这篇论文中,我们揭示了扩散 U-Net 的未开发潜力,它充当了一个 “免费午餐”,极大地提高了实时生成的质量。我们最初调查了 U-Net 架构对去噪过程的关键贡献,并确定其主干有助于去噪,而其跳跃连接将高频特征引入解码器模块,导致网络忽视主干语义。利用这一发现,我们提出了一种简单而有效的方法——称为 “FreeU”——可以提高生成质量,而无需额外的训练或微调。我们的关键见解是战略性地重新调整源自 U-Net 跳跃连接和主干特征图的贡献,以发挥 U-Net 架构两个组成部分的优势。在图像和视频生成任务上的有希望的结果表明,我们的 FreeU 可以轻松集成到现有的扩散模型中,例如 Stable Diffusion、DreamBooth、ModelScope、Rerender 和ReVersion,以仅需少量代码即可提高生成质量。“All you need is to adjust two scaling factors during inference.

代码:https://chenyangsi.top/FreeU/

2. 方法

2.1 扩散模型

2.2. 扩散 U-Net 如何执行去噪?

在图 2 和图 3 中展示了去噪过程中低频和高频组件之间显著的差异后,我们基于观察到的这些差异,将我们的调查扩展到了 U-Net 架构在去噪过程中的具体贡献,以探索去噪网络的内部属性。 如图 4 所示,U-Net 架构包括一个主干网络,包括编码器和解码器,以及促进编码器和解码器相应层之间信息传递的跳跃连接。

U-Net 的主干。为了评估主干和侧向(lateral)跳跃连接在去噪过程中的显著特性,我们进行了一项受控实验,引入了两个乘法缩放因子,分别表示为 b 和 s,以调节主干和跳跃连接生成的特征图在连接之前。如图 5 所示,提高主干的比例因子 b 明显提高了生成图像的质量。相反,调节侧向跳跃连接影响的缩放因子 s 的变化似乎对生成图像的质量产生可忽略的影响。

基于这些观察,我们随后探讨了与主干特征图相关联的缩放因子 b 增加时图像生成质量提高的基本机制。我们的分析显示,这种质量改善基本上与 U-Net 架构的主干赋予的增强去噪能力有关。如图 6 所示,与 b 的相应增加相对应的是扩散模型生成的图像中高频组件的抑制。这意味着加强主干特征有效地增强了 U-Net 架构的去噪能力,从而有助于在保真度和细节保留方面实现卓越的输出。 

跳跃连接的 U-Net。相反,跳跃连接用于直接将编码器块的较早层的特征转发到解码器。有趣的是,正如图 7 所示,这些特征主要包含高频信息。我们根据这一观察提出的猜测认为,在训练 U-Net 架构期间,这些高频特征的存在可能在解码器模块内不经意地加速收敛到噪声预测。此外,图 5 中调制跳跃特征的有限影响还表明,跳跃特征主要贡献于解码器的信息。这一现象反过来可能导致在推断过程中不经意地减弱主干的固有去噪能力。因此,这一观察引发了关于 U-Net 框架的复合去噪性能中主干和跳跃连接扮演的相互平衡角色的相关问题。

2.3. 扩散U-Net中的免费午餐

利用上述发现,我们引入了一种简单而有效的方法,称为 “FreeU”,通过充分利用 U-Net 架构两个组成部分的优势,有效增强 U-Net 架构的去噪能力。它在不需要额外训练或微调的情况下,极大地提高了生成质量。

技术上,对于 U-Net 解码器的第 l 个块,让 xl 表示来自前一个块的主干的主干特征图,hl 表示通过相应跳跃连接传播的特征图。为了调节这些特征图,我们引入两个标量因子:用于 xl 的主干特征缩放因子 bl 和用于 hl 的尚未定义的跳跃特征缩放因子 sl。具体来说,因子 bl 旨在放大主干特征图 xl,而因子 sl 设计用于减弱跳跃特征图 hl。

对于主干特征,我们引入一种称为结构相关缩放的新方法,该方法动态调整每个样本的主干特征的缩放。与对所有样本或同一通道内的位置均匀应用的固定缩放因子不同,我们的方法根据样本特征的具体特点自适应地调整缩放因子。我们首先沿通道维度计算平均特征图:

其中,xl,i 表示特征图 xl 的第 i 个通道。C 表示 xl 中通道的总数。随后,主干因子图的确定如下:

其中,αl 表示主干因子图。bl 是一个标量常数(注:既然是标量常数,-1 是不是多余的?)(注:这里应该是一个小错误。 min 和 max 指的应该是 xl,而不是 ¯xl)然后,在实验调查中,我们发现通过与 αl 相乘不加选择地放大 xl 的所有通道会导致合成图像中的纹理过于平滑。原因在于增强的 U-Net 在去噪的同时削弱了图像的高频细节。因此,我们将缩放操作限制为 xl 的一半通道,如下所示:

确实,如图 8 所示,平均特征图 ¯xl 固有地包含有价值的结构信息。因此,主干因子图 αl 在放大主干特征图 xl 方面发挥着关键作用,与其结构特性相一致。这种战略性的方法有助于缓解过度平滑的问题。重要的是,这种策略提供了双重好处。首先,它增强了主干特征图的去噪能力,使其能够更有效地滤除噪声。其次,它避免了在整个特征图上无差别应用缩放所带来的不良影响,从而在降噪和纹理保留之间实现更加微妙的平衡。

为了进一步缓解由于增强去噪而导致的过度平滑纹理问题,我们在傅里叶域中进一步采用谱调制,以有选择地减弱跳跃特征的低频分量。从数学上讲,这个操作如下进行:

其中,FFT(·) 和 IFFT(·) 分别表示傅里叶变换和傅里叶逆变换。 ⊙ 表示逐元素乘法,而 βl,i 是傅里叶掩码,设计为傅里叶系数的幅度的函数,用于实现频率相关的缩放因子sl:

其中 r 是半径,r_thresh 是阈值频率。然后,增强的跳跃特征图 h′ l 与修改后的主干特征图 x′ l 串联,用于 U-Net 架构中的后续层,如图 4 所示。

值得注意的是,提出的 FreeU 框架不需要任何特定任务的训练或微调。添加主干和跳跃缩放因子可以轻松完成,只需几行代码即可。基本上,在推断阶段可以自适应地重新加权架构的参数,这使得可以在不增加任何计算负担的情况下进行更灵活、更强大的去噪操作。这使得 FreeU 成为一个非常实用的解决方案,可以无缝集成到现有的扩散模型中,以提高它们的性能。

3. 实验

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值