破解LoRA融合密码!无需训练夺得SOTA!K-LoRA巧用Top-K策略,让风格与主体完美融合

论文链接:https://arxiv.org/pdf/2502.18461
项目链接:https://k-lora.github.io/K-LoRA.io/

亮点直击

  • 提出了K-LoRA,一种简单而有效的优化技术,能够无缝融合内容和风格LoRA,从而在保留细节的同时生成任何主题的任意风格。

  • 本文的方法用户友好,无需重新训练,可直接应用于现有的LoRA权重。它在多样化的图像风格化任务中表现出色,超越了现有方法。

总结速览

解决的问题

  • 风格与内容的同时保留:现有方法在融合不同LoRA(Low-Rank Adaptation)时,难以同时有效保留原始图像的主体内容和风格细节。

  • 额外训练需求:现有方法通常需要手动调整超参数或进行额外的训练,增加了复杂性和计算成本。

提出的方案

  • K-LoRA方法:提出了一种无需额外训练的LoRA融合方法,称为K-LoRA。该方法在每个注意力层中,通过比较待融合的每个LoRA的Top-K元素,选择最优的LoRA进行融合。

  • Top-K选择机制:在注意力层的前向传播过程中,引入Top-K选择过程,以确定每个位置最合适的注意力组件。

  • 缩放因子应用:在融合过程中应用缩放因子,以强调风格和内容在扩散过程中的不同作用。

应用的技术

  • LoRA(Low-Rank Adaptation):利用LoRA在图像生成任务中的高效微调能力,独立训练风格和内容特征。

  • 扩散模型:结合扩散模型的时间步长,将LoRA的注意力层按时间步长融入模型,以评估其对性能的影响。

  • Top-K选择:在每个注意力层中,通过Top-K选择机制,选择最具代表性的特征进行融合。

达到的效果

  • 有效融合风格与内容:K-LoRA能够有效融合原始LoRA学习到的主体和风格信息,生成图像中同时保留风格细节和主体特征。

  • 无需额外训练:该方法无需额外训练,简化了操作流程,提高了用户友好性。

  • 性能提升:在定性和定量结果上,K-LoRA均优于现有的基于训练的方法,显著提升了融合LoRA的性能。

方法

K-LoRA

在[26]中指出,在使用LoRA进行微调时,使用较少的关键元素可以实现与原始方法相同的生成结果。然而,作者并未在图像生成领域提供相关实验来解释这一点。本文首先尝试利用这种方法,通过类似于Magmax的方法,将值较小的元素赋值为零。通过这种方式修改矩阵元素所得到的结果与[26, 30]的结果相似,因为模型未能正确解释其先前学习到的概念,导致图像生成质量欠佳。

鉴于直接修改注意力元素的复杂性和局限性,一个问题随之而来:能否在去噪过程中利用LoRA矩阵的稀疏特性?目标是找到一种替代方法,在不修改原始LoRA权重的情况下,为每一步或每一层找到一个良好的权重选择方法和精确的LoRA定位。基于多LoRA组合,随机将内容LoRA注意力层应用于扩散步骤,通过使用x%的注意力层来影响对象,以观察生成结果。如下图3(a)所示,发现当x > 50时,结果与原始模型几乎无法区分。然而,当x < 25时,模型维持原始个性化概念的能力显著下降。

受近期研究[20, 29, 35]的启发,本文进一步扩展了下图2中的实验,发现将风格LoRA应用于较早的时间步对原始对象的重建有显著影响,而在较晚的时间步应用则可以保留风格信息而不影响原始对象。对于内容LoRA,在较早的时间步应用比在较晚的时间步应用效果显著更好。

上述分析促使通过自适应选择每个注意力层的LoRA模块来实现生成对象和风格的融合。根据发现(i),选择策略应保留整体对象和风格信息。此外,根据发现(ii),生成过程应通过适当安排对象和风格组件来实现。即在早期扩散步骤中,模型应更专注于对象重建,同时引入风格纹理;而在后期步骤中,最好通过细微的对象细节来优化风格。本文提出了K-LoRA,如下图4所示,它可以自适应地选择适当的LoRA层来融合学习到的主体和风格。

首先,对LoRA层中的每个元素取绝对值,以确定某个值是否在生成过程中起到重要作用。

其中, 和 分别表示内容LoRA和风格LoRA的权重。由于一小部分主导元素可以实现原始生成效果,而数据分布(见前面图3(b))显示较小元素占据了大部分位置,这会影响重要元素的选择,因此我们使用较少数量的最大元素来表示每一层的重要性。

分别从 和 中选择值最大的前 个元素。通过累加这些Top-K元素,我们评估给定注意力层中两个矩阵的重要性:

其中,Top-K 返回最大 个值的索引。对于 的选择,注意到 LoRA 训练过程中的秩数在一定程度上反映了矩阵中包含的信息量。因此,选择的 与每个 LoRA 的秩保持一致:

其中, 和 分别表示内容LoRA层和风格LoRA层的秩。通过比较这两个和,能够确定注意力层中适当的权重:

为了更有效地利用发现(ii),并让对象和风格在不同阶段发挥各自的作用,同时确保从以对象为中心的表示平滑过渡到以风格为中心的表示,本文引入了一个缩放因子 。该因子 直接应用于 Top-K 选择过程,在生成的早期阶段增强对象内容,并在后期逐步强调风格。

其中, 表示反向去噪过程中的当前步骤, 是总步骤数, 和 是超参数。

为了避免在使用来自不同来源的社区LoRA模型时出现过大的权重差异(这可能导致Top-K选择在注意力分配上失效),本文引入了一个新的因子 来平衡这两个权重。

首先,计算每一层 中元素的绝对值之和,然后逐层累加这些和以计算 。

引入 解决了两个LoRA组件中元素之间的显著数值差异,如前面图3(b)所示。这一调整突出了LoRA层中的有用组件。通过 ,内容LoRA和风格LoRA权重在每一层中的比例关系如下图5所示。可以观察到,在应用LoRA的每一前向层中,主导组件之和的比例存在显著差异。这凸显了每一层中不同LoRA权重的重要性,为选择提供了坚实的基础。

随后,将 应用于风格LoRA并更新 。

通过引入 ,我们可以在早期时间步中增强内容的影响,同时在后期时间步中放大风格的主导地位。这一调整能够有效利用发现(ii),优化对象和风格的选择,以最大化它们在图像生成过程中的贡献。最终的LoRA权重可以通过计算 获得。为了更清晰地说明,在下算法1中提供了伪代码。

为了更好地解释权重选择过程,在下图6中展示了选择比例,其中对象和风格无缝地相互渗透和融合。第一部分主要关注对象,同时融入少量风格,而后半部分则主要强调风格,同时保留对象的微妙存在,这进一步证实了我们的关键发现。

实验

实验设置

数据集:遵循ZipLoRA的惯例,对于通过本地训练获得的LoRA,从DreamBooth数据集中选择了一组多样化的内容图像,每组包含4-5张给定主题的图像。对于风格,我们选择了StyleDrop作者提供的先前数据集,并包括一些经典杰作和现代创新风格。对于每种风格,仅使用单张图像进行训练。

实验细节:使用SDXL v1.0基础模型和FLUX模型进行实验,并使用本地训练的LoRA和社区训练的LoRA测试K-LoRA的性能。对于社区训练的LoRA,使用Hugging Face上广泛可用的LoRA模型进行测试。对于本地训练的LoRA,基于ZipLoRA中概述的方法获得一组风格和内容LoRA。对于公式(7)中提到的超参数,设置和。该配置被发现在几乎所有情况下都能有效工作,生成结果一致良好。

结果

定量比较:随机选择了18组对象和风格的组合,每组包含10张图像进行定量比较。使用CLIP来衡量风格相似性,并通过CLIP分数和DINO分数计算主体相似性。将本文的方法与社区中流行的方法以及最先进的方法进行比较,包括直接算术融合、联合训练、ZipLoRA和B-LoRA。结果如下表1所示。可以观察到,与之前的方法相比,本文的方法显著提高了主体相似性指标,同时也实现了令人满意的风格相似性。

定性比较:为了确保公平评估,本阶段的所有实验均使用SD进行,结果如下图7所示。直接设置融合比例为1:2而不进行大量参数调整或种子选择时,融合LoRA的方法难以保留对象的原始形状、颜色和风格特征。B-LoRA主要捕捉原始图像中对象的颜色和外观,但往往导致颜色过拟合,使得生成图像中难以区分原始对象。在ZipLoRA和联合训练方法中,虽然融入了某些风格纹理,但模型倾向于关注风格的背景元素而非风格本身,导致成功率较低。相比之下,本文的方法通过生成更高质量的输出图像并在广泛的种子变化中表现稳定,解决了这些局限性。此外,本文的方法无需额外训练或参数微调。

随机选择了22组结果供用户进行比较评估。每组包括ZipLoRA、B-LoRA和本文的方法的输出,以及训练对象和风格的参考图像。用户被要求确定哪种方法最能同时保留风格和对象。结果显示在下表2中,表明本文的方法最受青睐。此外,我们还咨询了GPT-4o进行类似评估。本文的方法在GPT-4o评估中显示出显著优势,进一步反映了我们方法的优越性。

消融分析

Top-K选择:本文进行了两项实验来验证Top-K选择方法的有效性:固定选择和随机选择。发现(ii)提出了一种直接的方法:如果缩放因子大于1,则选择内容LoRA;否则,选择风格LoRA。这种方法称之为“固定选择”,作为测试Top-K选择方法消融的有用基线。它也可以被视为多LoRA组合的扩展和改进,在某些场景中显示出良好的效果。然而,在特定的风格LoRA条件下,这种方法可能会导致对象模糊或内容外观的改变,如图9所示。

为了确保模块在指定的前向层安排中表现一致,而不是依赖于任意配置,进行了一项称为“随机选择”的对照实验,使用随机种子。在此设置中,模型使用一个随机数,有1/3的概率选择内容注意力,2/3的概率选择风格注意力。如图9所示,在这些随机选择条件下,生成的图像通常仅保留单一的对象特征或风格特征,或者完全无法保留两者。这一结果进一步验证了我们的发现(ii),突出了对象和风格组件在早期和后期扩散时间步中的不同作用。

此外,评估了不同值对生成图像的影响,如下图8所示。在Top-K方法中,系统地改变了的值。当较小时,风格和对象的特征都不够突出。随着的增加,这一问题逐渐改善。然而,如果过大,风格可能无法保留,对象的形状也可能发生显著扭曲。

缩放因子:为了评估缩放因子的有效性,将其移除,仅关注原始的Top-K方法。在第一个实验中,如下图9所示,分析表明,虽然在某些条件下仅使用Top-K可以产生令人满意的结果,但扩大实验范围会发现对象失真和风格丢失的情况。为了进一步评估缩放因子中的重要性,我们测试了两个来源不同的LoRA模型的性能,其特征是元素和的显著差异。如图9底部所示,Top-K选择未能准确捕捉风格,而固定选择中对象和风格的融合明显弱于本文的方法。

总之,移除这两个模块会导致生成性能下降,突出了它们对模型整体有效性的关键贡献。

结论

K-LoRA,它能够无缝融合独立训练的风格和主体LoRA模型。K-LoRA在保留原始风格复杂细节的同时,实现了精确的对象微调。本文的方法通过Top-K选择和缩放因子,有效利用了对象和风格LoRA在每一步扩散中的贡献,最大化地利用了原始权重,并实现了无需重新训练或手动超参数调整的精确风格融合。

参考文献

[1] K-LoRA: Unlocking Training-Free Fusion of Any Subject and Style LoRAs

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值