B-LoRA
Title: Implicit Style-Content Separation using B-LoRA
上次编辑: September 30, 2024 4:36 PM
概括: 观察attntion模块,本质上是发现了attention模块具有独立性
github: https://github.com/yardenfren1996/B-LoRA
paper: https://arxiv.org/pdf/2403.14572
method
-
如下图,SD模型中prompt embedding的描述,文中将不同的prompt分别注入到不同的attention层中,观察某一个层中prompt改变对整体生成图像的影响,再通过CLIP将图像映射到潜空间,计算替换一个prompt出图和prompt本身的余弦相似度→发现第二个和第四个bdflock对应内容的生成,第五个block对应颜色的生成
-
lora-based separation with B_lora
- 通过实验发现更改 ∆ W 4 , ∆ W 5 ∆ W^{4}, ∆W^{5} ∆W4,∆W5的效果最好,其中 ∆ W 4 , ∆ W 5 ∆ W^{4}, ∆W^{5} ∆W4,∆W5分别代表内容信息和风格信息
- 将这种只需要训练两个模块的叫做B-lora—减少训练参数量
-
B-lora for image stylization
-
通过输入text-prompt 训练两个矩阵,实现了对style和content的解耦,并且实现了仅加入对应权重实现风格融合
-