【大模型lora微调】关于推理时如何使用 LoRA Adapter

橙子小哥的代码世界

于 2025-06-20 21:03:38 发布

阅读量237

点赞数 6

CC 4.0 BY-SA版权

分类专栏：大模型微调大模型文章标签： lora微调

本文链接：https://blog.youkuaiyun.com/weixin_41645791/article/details/148777789

大模型同时被 2 个专栏收录

37 篇文章

订阅专栏

大模型微调

2 篇文章

订阅专栏

假设你有两部分：

一个是原始大模型（base model）

一个是保存的 LoRA Adapter（adapter_config.json + adapter_model.bin）

不合并的情况下推理方法

你可以用 peft 的方式加载 LoRA Adapter，推理时这样写：

from transformers import AutoModel, AutoTokenizer
from peft import PeftModel

# 1. 加载原始大模型
base_model = AutoModel.from_pretrained(
    "原始模型路径",
    trust_remote_code=True
)
tokenizer = AutoTokenizer.from_pretrained(
    "原始模型路径",
    trust_remote_code=True
)

# 2. 加载 LoRA Adapter
model = PeftModel.from_pretrained(
    base_model,
    "lora_adapter保存路径"
)

# 3. 推理
inputs = tokenizer("你的输入", return_tensors="pt")
outputs = model.generate(**inputs)
print(tokenizer.decode(outputs[0]))