使用llama.cpp进行Qwen2.5-3B模型的转换、量化、推理

最新推荐文章于 2025-05-08 11:51:39 发布

不会写代码的大模型

最新推荐文章于 2025-05-08 11:51:39 发布

阅读量1.1k

点赞数 11

CC 4.0 BY-SA版权

文章标签： llama

本文链接：https://blog.youkuaiyun.com/xuptyjs/article/details/144285461

1.llama.cpp环境安装

拉取项目

git clone https://github.com/ggerganov/llama.cpp

进入目录

cd llama.cpp

CUDA 版本编译

cmake -B build -DGGML_CUDA=ON
cmake --build build --config Release

该过程需要等待一段时间

2.模型文件转换

魔搭社区拉取模型文件

git clone https://www.modelscope.cn/Qwen/Qwen2.5-3B-Instruct.git

进入到llama.cpp文件夹下，进行模型文件转换，将safetensor格式转换为gguf格式

python ./convert_hf_to_gguf.py  /mnt/workspace/Qwen2.5-3B-Instruct/ --outfile /mnt/workspace/Qwen2.5-3B-Instruct-fp16.gguf

转换后默认为半精度FP16类型

3.模型量化

进入到llama.cpp的build/bin目录下，执行命令

./llama-quantize /mnt/workspace/Qwen2.5-3B-Instruct-fp16.gguf /mnt/workspace/Qwen2.5-3B-int4.gguf q4_0

执行完毕后将FP16类型量化为int4类型的模型

可以看到，量化后的模型大小为1.7G，显著下降

4.模型推理

./llama-cli -m /mnt/workspace/Qwen2.5-3B-int4.gguf --color -c 512 -b 64 -n 256 -t 12 -i -r "助手:" -p "你是人工智能助手" -cnv

还有很多参数可选

也可以进行API的部署

./llama-server -m /mnt/workspace/Qwen2.5-3B-int4.gguf --port 8080

启动一个api，运行在8080端口

经过量化后的模型通过llama.cpp进行推理和部署时候，发现比自行计算所占的显存还要小，有了解的朋友麻烦指点下

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

不会写代码的大模型

关注关注

11
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

【Qwen2部署实战】llama.cpp：一键部署高效运行Qwen2-7B模型

寻道AI，探索AI无限可能！

07-07

3440

在人工智能的快速发展中，大型语言模型（LLM）如Qwen2-7B正成为研究和应用的焦点。这些模型以其强大的理解和生成语言的能力，正在不断推动智能应用的边界。然而，高效的部署和运行这些模型往往需要专业的知识和配置。`llama.cpp`库的出现，为这一问题提供了解决方案，它允许用户一键部署并高效运行Qwen2-7B模型。

【Qwen2.5部署实战】深入解析Qwen2.5：新一代开源语言模型的突破与应用

寻道AI，探索AI无限可能！

10-16

7128

Qwen2.5 全系列涵盖了多个尺寸的大语言模型、多模态模型、数学模型和代码模型。这种全面的模型体系，为不同领域的应用提供了强大的支持。无论是自然语言处理任务中的文本生成、问答，还是在编程领域的代码生成与辅助，亦或是数学问题的求解，Qwen2.5 都能发挥出色的作用。每个尺寸的模型都有基础版本、指令跟随版本、量化版本，总计上架 100 多个模型，满足了用户在不同场景下的多样化需求，刷新了业界纪录。

参与评论您还未登录，请先登录后发表或查看评论

实战精选 | 如何利用 OpenVINO™ 在本地运行 Qwen 2.5-VL 系列模型

OpenVINO的博客

03-11

150

点击蓝字关注我们作者：杨亦诚英特尔 AI 软件工程师介绍近期阿里通义实验室在 Hugging Face 和 ModelScope 上开源了 Qwen2.5-VL 的 Base 和 Instruct 模型，包含 3B、7B 和 72B 在内的 3 个模型尺寸。其中，Qwen2.5-VL-7B-Instruct 在多个任务中超越了 GPT-4o-mini，而 Qwen2.5-VL-3B 作为端侧 A...

最近，大模型岗位爆了。。。

qq_46094651的博客

02-16

362

重磅消息，国资委打响了国内AI第一枪！这意味着传统行业又迎来了一次大洗牌，现在国内头部人工智能公司已经开始用AI数字人助力各行各业，除此之外，知名大厂也都在布局AI市场。懂的程序员年薪已经翻到风口之下，与其焦虑被行业淘汰，不如先人一步掌握 AI 大模型技术。为帮助大家提升竞争力，为了帮助普通程序员享受时代红利，

通用大模型微调+本地化部署一文详解

最新发布

大模型训练

05-08

1327

本次我将使用Qwen2.5-3B模型配合LlamaFactory+llama.cpp+ollama等相关技术实现大模型微调以及部署到本地

微调模型导入ollama

weixin_47249499的博客

01-08

739

找到服务器上已经下载的qwen2.5模型，然后导出Modelfile文件。1.llama.cpp程序下载及环境配置。2.制作新的Modelfile。1.旧Modelfile导出。将对应行改为gguf文件位置。3.导入ollama。

【linux+llama.cpp+Qwen2.5】从零开始本地部署llama.cpp，运行Qwen2.5模型

cherrysssss的博客

12-12

1191

LLaMa.cpp 是cpp 跨平台的，在Windows平台下，需要准备mingw 和Cmake。本文将介绍linux系统中，从零开始介绍本地部署的LLAMA.CPP过程。-m 是你qwen2.5模型所在的位置（注意一定要gguf格式）。进入llama-cli所在的文件夹。找到llama-cli在何处。

Ollama安装部署及加载自定义量化Qwen大模型

weixin_46316820的博客

01-25

1103

Qwen/Qwen1.5-1.8B-Chat 模型为例子ModelFile文件内容。

使用 Ollama 运行 Qwen2.5.1-Coder-7B-Instruct

engchina的专栏

11-11

2478

使用 Ollama 运行 Qwen2.5.1-Coder-7B-Instruct

【ollama】ollama配置本地大模型并运行

xudawu201的博客

09-20

2140

ollama的Github链接ollama官网链接打开后点击下载下载完成后进行安装，安装完毕后在终端输入以下，代表安装成功ollama在ollama官网的模型库中找到需要的模型，这里使用阿里最新开源的qwen2.5复制这里的命令代码然后在终端中输入这行命令，等待模型下载完毕，然后可以开始对话ollama的模型默认安装位置ollama本地运行状态在浏览器中输入以上链接，出现以下则代表ollama运行模型成功ollama官方api接口docker配置的时候需要此接口。

llama-factory微调qwen2.5-vl

qq_44908396的博客

04-08

1605

使用llama-factory完成qwen2.5-vl微调

部署Qwen2.5-7b大模型详解

猛犸象

10-17

1万+

部署Qwen2.5-7b大模型详解

llama.cpp本地部署qwen2量化后的gguf模型

NEWBOY666的博客

08-07

892

编译完成后会在llama.cpp\build\bin\Release下生成llama-cli.exe。祝大家成功复现，如果没有GP的话，cpu或者AMD的相关gpu也是可以的，详细可以查看llama.cpp官网。注：windows上编译教程（打开工程文件后执行下列操作）

在Jetson设备部署通义千问1.8B大模型

桑榆肖物

12-13

5480

本文主要介绍了如何在 Jetson 设备上使用纯C/C++实现LLaMA模型的推理，而无需安装Python等其他外部依赖。通过本文你将了解如何借助 llama.cpp 项目在NVIDIA的Jetson系列设备上部署大模型，以及如何使用Qwen-1.8B模型进行通用问答任务。

llama_cpp_python运行Qwen2提示error loading model: unknown model architecture: ‘qwen2‘

huaihkiss的博客

06-11

2976

llama_cpp_python版本不支持qwen2导致，可以更新到新版。

使用llama-factory和llama.cpp微调量化Qwen2

weixin_48597428的博客

07-19

1370

在目录LLaMA-Factory/examples/train_lora/llama3_lora_sft_praise.yaml。2.将处理好的数据集上传到/data 文件夹下面，并修改dataset_info.json文件。生成模型将会放在LLaMA-Factory/saves下面。将合并后的模型转化为fp16精度的gguf格式文件。量化为int4精度的模型。1.选定数据集的格式。自己的测试acc脚本。

llama.cpp一种在本地CPU上部署的量化模型（超低配推理llama）