记录使用LoRA技术进行模型微调_对话lora微调,技巧 trick-优快云博客

作为一种常用的大模型微调方式，可以使用低秩自适应(LoRA)将大模型适配至不同的下游任务，可以降低节省训练成本。最近又在使用这个Trick，顺手记录一下。这里主要学习了来自于Diffusers提供的text2image和LCM的LoRA代码:

https://github.com/luosiallen/latent-consistency-model/blob/main/LCM_Training_Script/consistency_distillation/train_lcm_distill_lora_sdxl_wds.py

https://github.com/huggingface/diffusers/blob/main/examples/text_to_image/train_text_to_image_lora.py

需要用到的Huggingface的PEFT(Parameters Efficient Fine Tune)库。基于这个库可以很方便的将任意nn.Module的模型转为LoRA类模型，进行微调训练。

第一步. 实例化模型: （以Diffusion的Unet为例。事实上，可以是任意的nn.Module子类。）

from diffusers import UNet2DConditionModel# model_path: /path/to/your/modelunet=UNet2DConditionModel.from_pretrained(model_path)unet.train() # 开启训练

第二步. 转换模型至参数化：（安装 pip install peft）

from peft import get_peft_model, LoraConfig
self.lora_config = LoraConfig(    r=lora_rank,    lora_alpha=lora_rank*2,    target_modules=["to_q", "to_k", "to_v", "to_out.0", "proj_in",    "proj_out", "ff.net.0.proj", "ff.net.2", "conv1", "conv2",     "conv_shortcut", "downsamplers.0.conv", "upsamplers.0.conv", "time_emb_proj",],    inference_mode=False, # inference: Ture    init_lora_weights='gaussian',)peft_model = get_peft_model(unet, self.lora_config)

* 可以使用: 统计模型的总参数以及可训练的参数。

model.print_trainable_parameters()

* target_modules 根据模块的字典进行匹配，关键字包括的底层模块（Conv和Linear）都会转为LoRA单元。可以用以下方式，打印model的所有模块名称：

print([name for name, _ in model.named_modules()])

第三步. 实例化优化器：

optimizer = torch.optim.AdamW(peft_model.parameters(),                    lr=lr,                   weight_decay=weight_decay)

接下来就可以展开正常的训练流程。

for i in iteration_max:    out = peft_model(input)    loss = loss_fn(out, target)    loss.backward()    optimizer.step()    optimizer.zero_grad(set_to_none=True)

**保存LoRA参数：**有好几种方式，但貌似效果都一样。

# Option 1peft_model.save_pretrained(save_path) 
# Option 2from diffusers import convert_state_dict_to_diffusers,                      StableDiffusionXLPipelinefrom peft import get_peft_model_state_dictlora_state_dict = get_peft_model_state_dict(peft_peft_model)lora_state_dict = convert_state_dict_to_diffusers(lora_state_dict)StableDiffusionXLPipeline.save_lora_weights(save_path, lora_state_dict)

加载LoRA参数：

# 对应Option 1from peft import PeftModelunet = UNet2DConditionModel.from_pretrained(model_path)unet_wlora = PeftModel.from_pretrained(base_model, lora_path)
# 对应Option 2from diffusers import DiffusionPipelinepipeline = DiffusionPipeline.from_pretrained(model_path)pipeline.load_lora_weights(lora_path)

# Option 2 可能是能够结合Diffuser库封装的Pipeline进行加载，在使用过程中比较方便吧。

以下代码，是我在使用过程中用于检测LoRA参数是否正常可训练。这里有个地方需要特别注意，LoRA的参数是由一个A矩阵（C_in, rank）和B矩阵（rank, C_out）组成，再由它们相乘得到一个权重偏置量W’（C_in, C_out），并乘以一个权重（lora_alpha/rank）加到原权重W上。A矩阵默认采用随机初始化，而B矩阵采用的是零初始化。因此，在最开始时W‘为0，在早期的梯度更新时，A矩阵的梯度为0，W’整体的变化很小，但随着梯度回传的次数越来越多，W‘的变化会越来越大。一开始没有意识到这个问题，发现不管我怎么调整rank，前几轮的loss都一样，以为是出现Bug。但不断的检查代码，发现确实是在更新LoRA，最终在每个迭代的时候打印出Lora的梯度范式，才发现这个现象的原因。

检查LoRA的梯度

# test loracat_latents, timesteps, text_embed = torch.randn(2, 8, 32, 32).to(self.device), torch.randint(0, 1000, (2,)).to(self.device), torch.randn(2, 77, 1024).to(self.device)lora_output = peft_model(cat_latents, timesteps, text_embed).sampleprint(lora_output.shape)#在这里可以看到Lora权重的Shape都是（C，rank）或者（rank, C）的格式loss = nn.functional.mse_loss(lora_output, torch.zeros_like(lora_output))print(loss.item())loss.backward()for name, param in peft_model.named_parameters():    if "lora_A" in name and param.grad is not None:        print(f"检测到 {name} 的梯度 (范数: {param.grad.norm().item():.6f})")    if "lora_B" in name and param.grad is not None:        print(f"检测到 {name} 的梯度 (范数: {param.grad.norm().item():.6f})")

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述