14、大语言模型推理优化与模型选择策略

大语言模型推理优化与模型选择策略

1. 基于PEFT的推理技术

在大语言模型(LLM)的推理优化中,参数高效微调(PEFT)方法展现出显著优势。通过向预训练的LLM添加轻量级适配层,可使同一基础模型用于多个任务。在实际推理时,仅需保存训练得到的增量PEFT权重,大幅减小文件大小。例如,使用LoRA等PEFT方法对bigscience/T0_3B模型针对特定数据集进行微调后,只需几个文件(包括适配器配置和训练后的模型权重)即可存储,且权重文件大小极小。

在生产环境中使用多个PEFT模型时,用户发送JSON负载和适配器名称或路径。假设已有保存适配器的文件夹和如Falcon 7B的基础模型,文件夹中包含每个适配器的adapter_config.json文件和适配器权重。处理流程如下:
1. 加载基础模型。
2. 根据提供的适配器名称或路径动态设置和切换适配器。
3. 动态加载适配器并根据任务进行预测。

以下是一个可在运行时设置新适配器并进行预测的代码示例:

from transformers import AutoModelForCausalLM, AutoTokenizer

# Load base model and tokenizer
model = AutoModelForCausalLM.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)

def set_adapter(model, adapter_name, tokenizer):
    """
 
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值