LlamaFactory量化与部署Llama3时的报错(基于VLLM部署)

先安装好适配的cuda(我选择的是12.1),  然后环境中的python版本为3.11,  pytorch可以先不安装,后面安装llamafactory的时候自动安装适配的pytorch

先安装llamafactory

git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory
pip install -e ".[torch,metrics]" --no-build-isolation

这一步,会自动安装适配的torch, torchvision, torchaudio,以及一些其他的适配的Nvidia包:

pip install -e ".[torch,metrics]" --no-build-isolation

量化报错(我这张图是量化成功后的):

一开始会报确实optimum, 这个直接pip安装就好

pip install optimum

然后会报gptqmodel版本不匹配,这个很麻烦,下面是解决方法:

安装gptqmodel(也可以先在webui尝试一下,会报错“缺失gptqmodel”):

pip install gptqmodel

然后再安装vllm(为了可以正常部署大模型,这个版本是因为与现在的llamafactory版本匹配)

pip install vllm==0.8.5

此时会出现这个包(protobuf)冲突:

接着安装这个:

pip install --upgrade protobuf>=5.29.3

就可以正常使用llamafactory进行量化与部署了

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值