大语言模型推理优化与模型选择策略
1. 基于PEFT的推理技术
在大语言模型(LLM)的推理优化中,参数高效微调(PEFT)方法展现出显著优势。通过向预训练的LLM添加轻量级适配层,可使同一基础模型用于多个任务。在实际推理时,仅需保存训练得到的增量PEFT权重,大幅减小文件大小。例如,使用LoRA等PEFT方法对bigscience/T0_3B模型针对特定数据集进行微调后,只需几个文件(包括适配器配置和训练后的模型权重)即可存储,且权重文件大小极小。
在生产环境中使用多个PEFT模型时,用户发送JSON负载和适配器名称或路径。假设已有保存适配器的文件夹和如Falcon 7B的基础模型,文件夹中包含每个适配器的adapter_config.json文件和适配器权重。处理流程如下:
1. 加载基础模型。
2. 根据提供的适配器名称或路径动态设置和切换适配器。
3. 动态加载适配器并根据任务进行预测。
以下是一个可在运行时设置新适配器并进行预测的代码示例:
from transformers import AutoModelForCausalLM, AutoTokenizer
# Load base model and tokenizer
model = AutoModelForCausalLM.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)
def set_adapter(model, adapter_name, tokenizer):
"""
超级会员免费看
订阅专栏 解锁全文
2万+

被折叠的 条评论
为什么被折叠?



