基于llama.cpp学习开源LLM本地部署

最新推荐文章于 2025-11-06 15:12:13 发布

原创

最新推荐文章于 2025-11-06 15:12:13 发布 · 3k 阅读

·

28

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

这篇博客介绍了开源项目llama.cpp，它是一个C++实现的大模型框架，支持在MacBook上运行4位整数量化的LLaMA模型。文章详细阐述了llama.cpp的下载、编译（包括CPU和GPU版本，如OpenBLAS、cuBLAS）、模型量化过程以及如何验证模型，并提到了API调用方式。

目录

一、llama.cpp是什么？

二、使用步骤

1.下载编译llama.cpp

2. 普通编译

3.1、OpenBLAS 编译 CPU版

3.2 cuBLAS 编译GPU版本

4. 模型量化

4.1、模型文件下载：

4.2、安装python 依赖库。

4.3、模型转换（把7B 模型转换成 ggml FP16 ）

4.4、对FP16模型进行4-bit 进一步量化。（使用上面编译生成的 ./quantize）

5、模型验证

6、API 方式调用

前言

LLM大模型学的时间也有大半年了，相关的模型、工具、技术和知识等也更新比较快。很多东西之前都没有留痕，回头一看，学了个寂寞。

一、llama.cpp是什么？

llama.cpp 的主要目标是在MacBook上使用 4 位整数量化运行 LLaMA 模型。

Plain C/C++ implementation without dependencies
Apple silicon first-class citizen - optimized via ARM NEON, Accelerate and Metal frameworks
AVX, AVX2 and AVX512 support for x86 architectures
Mixed F16 / F32 precision
2-bit, 3-bit, 4-bit, 5-bit, 6-bit and 8-bit integer quantization support
CUDA, Metal and OpenCL GPU backend support

总之一句话：llama.cpp 一个C++编写的轻量级开源大模型框架，可以支持在消费级普通设备上本地部署运行大模型。基本上大部分开源大模型他都支持。

注：之前老版本转换的模型文件扩展名都是.bin，最新的模型文件都是.gguf。

二、使用步骤

1.下载编译llama.cpp

https://github.com/ggerganov/llama.cpp.git

llama.cpp 编译分为CPU和GPU两种，但编译方式有好几种：普通编译，Metal 编译，MPI编译，BLAS编译。本文只介绍少普通编译和BLAS编译。其他详见llama.cpp

2. 普通编译

默认编译出来的CPU版本。

使用make构建使用下面命令:
```
cd llama.cpp
make
```

运行如下：

生成了以下：

注：如果失败了，使用make clean 清理一下，重新编译。

使用Cmake构建如下:

cd llama.cpp
mkdir build
cd build
cmake ..
cmake --build . --config Release

3. BLAS编译

使用 BLAS 可能会提高使用大于 32（默认值为 512）的批处理进行提示处理时的性能。支持纯 CPU BLAS 实现不会影响正常生成性能。我们可能会看到涉及 GPU 的 BLAS 实现（例如 cuBLAS、hipBLAS 和 CLBlast）的生成性能改进。目前有几种不同的 BLAS 实现可供构建和使用。

3.1、OpenBLAS 编译 CPU版

前提安装了

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。