10、大模型参数高效微调与强化学习微调方法

c6d7e8f9g

于 2025-10-26 12:04:22 发布

阅读量19

点赞数

CC 4.0 BY-SA版权

分类专栏：驾驭生成式AI的未来文章标签： LoRA QLoRA 提示调优

本文链接：https://blog.youkuaiyun.com/c6d7e8f9g/article/details/154515058

驾驭生成式AI的未来专栏收录该内容

22 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

大模型参数高效微调与强化学习微调方法

1. LoRA与QLoRA技术

1.1 LoRA推理与权重合并

在进行推理时，需要加载预训练大语言模型（LLM）的权重和新的LoRA权重并将它们合并。以下是使用Hugging Face实现的代码示例：

from peft import PeftModel, PeftConfig
peft_model_base = AutoModelForCausalLM.from_pretrained(base_model_dir, 
                                                       torch_dtype=torch.bfloat16)
tokenizer = AutoTokenizer.from_pretrained(base_model_dir)
peft_model = PeftModel.from_pretrained(peft_model_base, 
                                       model_dir, torch_dtype=torch.bfloat16, is_trainable=False)

由于秩分解矩阵比原始权重小得多，因此可以为每个租户高效地微调不同的集合，并在推理时通过将权重与原始模型合并来切换它们。合并适配器权重与原始基础模型有两种方法：