大语言模型微调技术:LoRA、QLoRA、提示调优与基于人类反馈的强化学习
1. LoRA 与 QLoRA 技术
1.1 LoRA 推理与权重合并
在进行推理时,需要加载预训练的大语言模型(LLM)权重和新的 LoRA 权重并将它们合并。以下是使用 Hugging Face 实现的代码:
from peft import PeftModel, PeftConfig
peft_model_base = AutoModelForCausalLM.from_pretrained(base_model_dir, torch_dtype=torch.bfloat16)
tokenizer = AutoTokenizer.from_pretrained(base_model_dir)
peft_model = PeftModel.from_pretrained(peft_model_base, model_dir, torch_dtype=torch.bfloat16, is_trainable=False)
合并 LoRA 适配器与原始模型有两种常见方法:
- 合并 LoRA 适配器与原始模型 :为特定租户(如租户 1)训练一组 LoRA 矩阵(即 LoRA 适配器),在推理时,将 LoRA 矩阵相乘,然后将结果矩阵添加到原始冻结权重中。使用 PEFT 库的 merge_and_unload() 函数合并权重的代码如下:
merg
超级会员免费看
订阅专栏 解锁全文
34

被折叠的 条评论
为什么被折叠?



