使用llama.cpp进行量化和部署

苍墨穹天

已于 2024-12-25 11:44:29 修改

阅读量1k

点赞数 2

分类专栏：大模型文章标签： llama.cpp

于 2024-11-22 13:27:46 首次发布

本文链接：https://blog.youkuaiyun.com/Mooczx/article/details/143967388

版权

1.下载

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp

2.根据cpu和cuda编译

🖥️ CPU 版本

cmake -B build_cpu
cmake --build build_cpu --config Release

🖥️ CUDA 版本

cmake -B build_cuda -DLLAMA_CUDA=ON
cmake --build build_cuda --config Release -j 12

  cmake -B build
  cmake --build build --config Release -t llama-server

3.量化

1.将 safetensors 格式转成 gguf

cd ~/code/llama.cpp/build_cuda/bin

python convert_hf_to_gguf.py /mnt/workspace/models/Qwen2.5-1.5B-Instruct --outfile /mnt/workspace/Qwen2.5-1.5B-Instruct-q8_0-v1.gguf --outtype q8_0

2.将 gguf 格式进行（再）量化

cd ~/code/llama.cpp/build_cuda/bin

./quantize --allow-requantize /root/autodl-tmp/models/Llama3-8B-Chinese-Chat-GGUF/Llama3-8B-Chinese-Chat-q8_0-v2_1.gguf /root/autodl-tmp/models/Llama3-

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

苍墨穹天

关注关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

llama.cpp本地部署qwen2量化后的gguf模型

NEWBOY666的博客

08-07

868

编译完成后会在llama.cpp\build\bin\Release下生成llama-cli.exe。祝大家成功复现，如果没有GP的话，cpu或者AMD的相关gpu也是可以的，详细可以查看llama.cpp官网。注：windows上编译教程（打开工程文件后执行下列操作）

【学习笔记】：Ubuntu 22 使用模型量化工具llama.cpp部署大模型 CPU+GPU

qq_44305583的博客

03-13

6037

Ububtu22下模型量化工具llama.cpp及llama-cpp-python部署应用。

参与评论您还未登录，请先登录后发表或查看评论

【AI实战】llama.cpp 量化部署 llama-33B

Zack的博客

07-06

9806

llama.cpp 量化部署 llama-33B

使用llama.cpp量化部署LLM

哦豁灬

05-05

4037

以llama.cpp工具为例，介绍模型量化并在本地部署的详细步骤。这里使用 Meta最新开源的 Llama3-8B 模型。

大模型本地部署神器：llama.cpp使用介绍

热门推荐

youmaob的博客

04-07

1万+

另外一个是量化，量化是通过牺牲模型参数的精度，来换取模型的推理速度。llama.cpp 提供了大模型量化的工具，可以将模型参数从 32 位浮点数转换为 16 位浮点数，甚至是 8、4 位整数。训练的过程，实际上就是在寻找模型参数，使得模型的损失函数最小化，推理结果最优化的过程。训练完成之后，模型的参数就固定了，这时候就可以使用模型进行推理，对外提供服务。大模型时代，企业对人才的需求变了，AIGC相关岗位人才难求，薪资持续走高，AI运营薪资平均值约。llama.cpp 提供了模型量化的工具。

掌握 llama.cpp 量化部署与 ollama 导入模型，轻松搞定模型部署难题！

Gblfy_Blog

03-02

1199

掌握 llama.cpp 量化部署与 ollama 导入模型，轻松搞定模型部署难题！

Llama.cpp大模型量化简明手册

新缸中之脑

06-04

5625

大型语言模型 (LLM)，尤其是像 Mixtral 8x7b（467 亿个参数）这样的大型模型，对内存的要求非常高。当你尝试降低推理成本、提高推理速度或在边缘设备上进行推理时，这种内存需求就会变得明显。解决此问题的一个潜在方法是量化。在本文中，我们将使用易于理解的类比来简化量化的概念，并提供在 LLM 中实现它的实用指南。LLM 虽然功能强大，但由于模型规模较大，因此会消耗大量资源。这对资源受限的设备上部署带来了挑战，并且会阻碍推理速度和效率。量化提供了一种解决方案，即在保持性能的同时降低模型参数的精度。

LLama.cpp轻量化模型部署及量化

weixin_42254289的博客

08-01

1900

编译会用到CMake。起初对CMake不是很了解，对CMake和Make傻傻分不清。查资料了解到：CMake是一个跨平台的系统生成工具，它的主要作用是通过配置文件（通常是）生成适合于目标平台的构建脚本或文件。Make是一个构建自动化工具。通过读取Makefile 来执行编译和构建过程。# cmake -B:新建一个文件夹build_cuda,然后把所有需要被编译的文件都放到build_cuda文件下面# -DLLAMA_CUDA=ON：打开cuda开关，表示支持cuda。

llama.cpp部署

m0_37749564的博客

03-24

4600

训练完成之后，模型的参数就固定了，这时候就可以使用模型进行推理，对外提供服务。llama.cpp 主要解决的是推理过程中的性能问题。计算类 Python 库的优化手段之一就是使用 C 重新实现，这部分的性能提升非常明显。另外一个是量化，量化是通过牺牲模型参数的精度，来换取模型的推理速度。llama.cpp 提供了大模型量化的工具，可以将模型参数从 32 位浮点数转换为 16 位浮点数，甚至是 8、4 位整数。除此之外，llama.cpp 还提供了服务化组件，可以直接对外提供模型的 API。

llama.cpp本地部署大模型

张兆坤

09-06

2250

llama.cpp 是一个C++库，用于简化LLM推理的设置，它使得在本地机器上运行大模型（GGUF格式）成为可能。安装并且使用llama.cpp。

使用llama.cpp实现LLM大模型的格式转换、量化、推理、部署_meta-llama-3-8b-instruct-gguf-imatrix-request

月流霜的专栏

07-31

726

llama.cpp的主要目标是能够在各种硬件上实现LLM推理，只需最少的设置，并提供最先进的性能。提供1.5位、2位、3位、4位、5位、6位和8位整数量化，以加快推理速度并减少内存使用。

OpenAI 宣布将让人们无需注册账户即可免费使用 ChatGPT

程序员鑫港的博客

05-27

1215

自 2022 年底首次向公众推出以来，OpenAI 一直要求想要访问该聊天机器人的用户注册 OpenAI 账户。今天，该公司透露将向所有人免费开放 ChatGPT，无需创建账户。OpenAI表示，它将"逐步"推出这一新的访问权限，因此，根据您居住的地方，您可能仍需要先注册一个账户，然后才能向所有人提供这一改进。在开放之后，ChatGPT 打开就能用，看起来终于初步具备了「AI 搜索引擎」的样子。

llama.cpp部署 DeepSeek-R1 模型

Stestack的博客

02-14

1367

使用纯 C/C++推理 Meta 的LLaMA模型（及其他模型）。主要目标llama.cpp是在各种硬件（本地和云端）上以最少的设置和最先进的性能实现 LLM 推理。

【AI大模型】llama.cpp模型量化（本地） + ollama部署（docker）（超详细实况二）

huang9604的博客

10-29

3016

【AI大模型】llama.cpp模型量化（本地） + ollama部署（docker）（超详细实况二）

使用llama.cpp实现LLM大模型的格式转换、量化、推理、部署

m0_65555479的博客

08-06

2195

本地LLM部署--llama.cpp

qq_43819568的博客

12-29

5713

llamma.cpp），也是本地化部署LLM模型的方式之一，除了自身能够作为工具直接运行模型文件，也能够被其他软件或框架进行调用进行集成。默认编译流程设计更多针对 Linux/macOS，所以在 Windows 上需要额外设置和工具支持。从Visual Studio 官网下载并安装。在安装时选择C++ 桌面开发工作负载。下载和配置llama.cpp克隆项目：git clone https://github.com/ggerganov/llama.cpp.git cd llama.cpp使用。

llama.cpp部署deepseek

02-01

### 部署 `llama.cpp` 使用 DeepSeek 的方法 #### 准备环境为了能够顺利运行基于 `llama.cpp` 和 DeepSeek 模型的应用程序，首先需要准备合适的开发环境。这通常涉及安装必要的依赖库以及配置硬件资源。对于 `llama.cpp` 安装而言，官方 GitHub 页面提供了详细的指导说明[^2]。建议按照文档中的指示完成 Python 包的安装过程： ```bash pip install llama-cpp-python ``` #### 下载并加载模型 DeepSeek 是一种非常庞大的语言模型，在实际应用之前，必须先获取对应的权重文件。鉴于 DeepSeek 并未公开全部参数细节，这里假设可以访问到相应的预训练模型或通过合法渠道获得授权使用的版本。一旦获得了模型文件路径，则可以通过如下方式将其加载至内存中以便后续调用: ```python from llama_cpp import Llama model_path = "path/to/deepseek/model.bin" llm = Llama(model_path=model_path) ``` #### 设置推理选项针对不同的应用场景，可能还需要调整一些特定于框架本身的设置项来优化性能表现。例如量化级别、线程数等都可以影响最终效果。具体操作可以根据个人需求参照项目主页上的提示进行设定[^1]: ```python # Example configuration options for better performance tuning. context_params = { 'n_ctx': 512, 'seed': -1, 'f16_kv': True, } llm.set_context(**context_params) quantized_model_path = llm.quantize(4) # Quantizes the model to 4-bit precision and saves it. print(f"Quantized Model Path: {quantized_model_path}") ``` #### 执行推理任务最后一步就是编写具体的业务逻辑代码片段用于发起请求并对返回的结果做进一步处理分析。下面给出一段简单的对话交互例子作为参考实现之一: ```python def chat_with_deepseek(prompt_text): response = llm(prompt=prompt_text, max_tokens=100) generated_message = ''.join(response['choices'][0]['text']) return generated_message.strip() if __name__ == "__main__": user_input = input("User> ") bot_reply = chat_with_deepseek(user_input) print(f"Bot> {bot_reply}") ``` 以上即为利用 `llama.cpp` 结合 DeepSeek 实现自然语言处理功能的大致流程概述。需要注意的是，由于涉及到复杂的计算密集型运算，因此推荐使用具备良好 GPU 支持的工作站来进行部署实施工作。