
使用LLaMA-Factory进行模型量化
以下实验基于微调后模型进行量化。针对基座模型的直接量化,可以使用与部署中使用的数据类型紧密匹配的公开通用数据集作为校准数据集量化(任意数据集)该部分可以参考使用llm-compressor。
量化方法
LLaMA-Factory 支持多种量化方法,包括:
- AQLM
- AWQ
- GPTQ
- QLoRA
- …
GPTQ 等后训练量化方法(Post Training Quantization)是一种在训练后对预训练模型进行量化的方法。
量化导出
使用GPTQ和AWQ等后训练量化方法对模型进行量化时,需要进行以下步骤:(即使直接使用AutoAWQ和AutoGPTQ对qwen进行量化都需要进行以下步骤)
- 对模型进行微调
- 构建校准数据集
- 将微调后模型进行量化导出
以下是量化导出时使用的yaml文件以及其中的基础参数
### examples/merge_lora/llama3_gptq.yaml
### model
model_name_or_path: meta

最低0.47元/天 解锁文章
7390

被折叠的 条评论
为什么被折叠?



