LlamaFactory量化与部署Llama3时的报错(基于VLLM部署)

原创已于 2025-06-05 11:10:05 修改 · 534 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #神经网络 #深度学习 #机器学习 #算法 #llama

于 2025-06-05 11:09:22 首次发布

疑难杂症解决专栏收录该内容

7 篇文章

订阅专栏

先安装好适配的cuda(我选择的是12.1), 然后环境中的python版本为3.11, pytorch可以先不安装,后面安装llamafactory的时候自动安装适配的pytorch

先安装llamafactory

git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory
pip install -e ".[torch,metrics]" --no-build-isolation

这一步，会自动安装适配的torch, torchvision, torchaudio,以及一些其他的适配的Nvidia包：

pip install -e ".[torch,metrics]" --no-build-isolation

量化报错(我这张图是量化成功后的)：

一开始会报确实optimum, 这个直接pip安装就好

pip install optimum

然后会报gptqmodel版本不匹配，这个很麻烦，下面是解决方法：

安装gptqmodel(也可以先在webui尝试一下，会报错“缺失gptqmodel”):

pip install gptqmodel

然后再安装vllm(为了可以正常部署大模型，这个版本是因为与现在的llamafactory版本匹配)

pip install vllm==0.8.5

此时会出现这个包（protobuf）冲突：

接着安装这个：

pip install --upgrade protobuf>=5.29.3

就可以正常使用llamafactory进行量化与部署了

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

星光银河

关注关注

8
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

安装指南：LLaMA Factory、AutoGPTQ 和 vllm

weixin_41544125的博客

01-16

1948

在本文中，我们将详细介绍如何安装 LLaMA Factory、AutoGPTQ 和 vllm，这些工具在大型语言模型（LLMs）和视觉语言模型（VLMs）的微调和量化中非常有用。我们将逐步指导你完成整个安装过程，确保你能够顺利开始使用这些强大的工具。

【大模型】大模型推理部署工具之vLLM的使用（1）

酒酿小圆子呀～

03-02

2389

首先介绍一下vLLM是什么？vLLM 是一个快速且易用的用于 LLM 推理和服务的库。vLLM最初由UC Berkeley的Sky Computing Lab 开发，现已发展成为一个由学术界和工业界共同贡献的社区驱动项目。最先进的服务吞吐量使用对注意力键和值内存进行高效管理对传入请求进行连续批处理使用 CUDA/HIP 图进行快速模型执行量化：GPTQ、AWQ、INT4、INT8 和 FP8优化的 CUDA 内核，包括与 FlashAttention 和 FlashInfer 的集成。

参与评论您还未登录，请先登录后发表或查看评论

大模型开发和微调工具Llama-Factory--＞量化1(GPTQ 和 AWQ)

weixin_46034279的博客

12-01

3621

大型语言模型（LLMs）如 GPT 和 OPT 在各种任务上展现了卓越的性能，但同时也因其庞大的模型尺寸带来了硬件上的挑战，尤其是在内存大小和内存带宽方面。这限制了这些模型在边缘设备上的部署和使用。图 1.我们介绍 AWQ，这是一种用于 LLM 的多功能权重量化方法。为了实现 AWQ，我们开发了 TinyChat，将4 bit 量化 LLM 部署到各种边缘平台，与FP16相比，性能提升了3-4 倍。

使用llama factory微调模型出现错误，导致无法在可视化页面导出

m0_74240516的博客

07-03

207

之后在LLama-Factory终端下运行 llamafactory-cli export merge.yaml即可，注意内存是否充足。

4GB显存玩转大模型！LLaMA-Factory AutoGPTQ量化微调全攻略

最新发布

gitblog_00563的博客

09-27

340

你是否还在为微调70亿参数模型需要24GB显存而苦恼？是否因GPU内存不足只能望"模"兴叹？本文将带你使用LLaMA-Factory的AutoGPTQ量化工具，仅需4GB显存即可完成大模型微调，让算力不再成为瓶颈。读完本文你将掌握：GPTQ量化原理、配置文件编写、低资源微调实操和常见问题解决。 ## 为什么选择AutoGPTQ量化模型量化（Model Quantization）是通过降低模型...

vllm安装和部署私有大模型以及解决LLamaFactory微调效果与vllm部署效果不一致

lucassu的博客

03-27

3056

vLLM是一个快速且易于使用的库，专为大型语言模型 (LLM) 的推理和部署而设计。具体参考官方文档是一个专为 LLaMA 系列大语言模型（如 Meta 的 LLaMA、LLaMA-2 等）设计的开源工具库，主要用于模型的高效微调（Fine-tuning）部署和应用开发。它旨在简化大模型定制化流程，降低用户使用门槛，支持快速适配不同下游任务（如对话、问答、代码生成等）。具体可以参考文档。

LLaMA-Factory学习笔记(1)——采用LORA对大模型进行SFT并采用vLLM部署的全流程

LiQZ的博客

11-08

3135

该博客是我根据自己学习过程中的思考与总结来写作的，由于初次学习，可能会有错误或者不足的地方，望批评与指正。

llamafactory报错：双卡4090GPU，训练qwen2.5:7B、14B时报错GPU显存不足（out of memory），轻松搞定~~~

Ven%的博客

12-27

3243

使用llamafactory进行微调qwen2.5 7B和14B的大模型时，会出现out of memory的报错。尝试使用降低batch_size（原本是2，现在降到1）的方式，可以让qwen2.5:7B跑起来，但时不时会不稳定，还是会报这个错误；微调14B的话，直接就报错了，根本跑起来。（显卡配置为两张23G的4090显卡，显存一共46G）目测lora微调显存的大小是模型本身大小的3倍以上，才能正常跑起来。注: 若不知道这个配置的代表什么含义的话，可以看这一篇。

llama-factory SFT 系列教程 (四)，lora sft 微调后，使用vllm加速推理

热门推荐

jieshenai的博客

04-20

1万+

首先使用 llama-factory 微调，得到微调后的 lora 权重；由于 vllm 并没有支持所有的模型；故通用的方式是将 lora 权重和大模型融合成新的大模型，再由 vllm 推理；在使用 alpaca 样式的数据集微调时，llama-factory 框架在训练时，会自动在prompt 添加 template。所以，在微调大模型后，使用vllm推理时，也要给 vllm 传入封装好的template。

LLM实践（二）——基于llama-factory的模型微调、加载和推理

lucky_chaichai的博客

03-26

1712

基于llama-factory实现模型微调

通义千问Qwen2.5-Omni-7B多模态部署与全方位体验

AngelCryToo的专栏

04-16

1325

这次决定购买安小时付费的服务器，不用的时候释放资源；包月包年利用率低，属实浪费。算力云可用的资源越来越少了，看文章RTX4090可以用，买个RTX4090吧。：可（FP16约14GB显存），支持多模态输入（如图文问答）。：需（显存需求降至~36GB）或（性能下降显著）。由于RTX4090卖完了，所以我买了。

Ubuntu系统进行大模型微调训练部署

LIUKAIY的博客

09-15

1933

Meta Llama-3-70B、Mistral-Large、阿里通义千问72B、百度文心4.0、智谱GLM-4以千亿级参数开源或半开源，支持商用，中文表现与GPT-4差距缩小，Llama-3采用分组查询注意力+SwiGLU，千问2.5引入RoPE+FlashAttention-2，推理速度提升30%。综上，Ubuntu 在“驱动新、框架全、镜像多、更新快、文档足”五维度形成正循环，使大模型团队能把有限时间花在调参与训练，而非浪费在编译兼容层，因此成为私有云与公有云部署的默认基线系统。

LLaMA-Factory windows wls 安装vllm，并对比速度

sinat_34233802的博客

09-14

289

本文介绍了为LLaMA-Factory框架安装vllm的过程：从vllm releases下载对应CUDA版本的whl文件，使用pip安装时可能遇到C编译器错误，需通过apt-get安装build-essential解决。安装完成后运行vllm_infer.py脚本进行推理测试，发现4090 GPU处理100条数据需40秒，比web UI快但仍慢于自研代码，性能有待优化。整个过程参考了相关技术博客内容。

【学习心得】几种特殊但非常必要学习的pip安装小知识

qq_39780701的博客

12-18

1392

几种特殊但非常必要学习的pip安装小知识

【SAM2分割万物—本地部署：实时分割图像、视频】OSError：未设置环境变量CUDA_HOME。请将其设置为您的 CUDA 安装根目录。

ban102055的博客

08-07

4941

使用–no-build-isolation可以避免重复安装依赖、帮助调试构建问题，并确保构建过程与现有环境更好地集成。

【踩坑记录】pip install -e . 报 “No module named pip”，但 python3 -m pip 正常？

qq_37312095的博客

07-28

375

环境：Ubuntu 22.04，Python 3.12 源码安装症状：python3.12 -m pip --version 一切正常，一跑 pip install -e . 就提示因为可能偷偷在隔离环境里干活。记住加或把 build 依赖写全，就能完美避坑。

pip 的高级操作和选项

weixin_46375180的博客

10-11

6077

确实，还有一些pip的高级操作和选项可能遗漏了。为了尽可能全面地涵盖pip。

大模型量化框架GPTQModel的基本使用方法

qysh123的专栏

03-23

1438

简单来说，当data_dir这个参数指定的时候，第一个参数path可以用来指定数据类型，如json，csv，text，xml等。相信大家看一下我给的例子就能明白。最简单的方法就是直接通过微调数据集构造校准数据集，然后再参考一下GPTQModel的主页例子。

在安装gptqmodel时发现报缺少torch但明明已经安装ModuleNotFoundError: No module named ‘torch‘ [end of output]

java_ge的博客

04-18

719

报错背景：pip安装一个gptqmodel库时，明明已经安装了torch库但仍然报没有安装。

vllm部署llama3

01-01

为了使用 vLLM 部署 Llama3 模型，可以参考基于 TorchServe 的 vLLM Docker 镜像部署方法[^2]。此过程涉及几个关键步骤： #### 准备环境确保安装并配置好 Docker 和 NVIDIA 容器运行时（nvidia-container-runtime...