llama.cpp使用教程：大模型safetensors格式转gguf

细胞派

已于 2025-04-19 15:38:15 修改

阅读量607

点赞数 1

CC 4.0 BY-SA版权

文章标签： llama

于 2025-04-19 15:23:56 首次发布

本文链接：https://blog.youkuaiyun.com/Luo_Daimeng/article/details/147351108

1、下载llama.cpp

打开Git，输入以下代码：

git clone https://github.com/ggerganov/llama.cpp.git

2、安装Python依赖

进入cmd，依次执行以下操作：

#创建虚拟环境，命名为llama
python -m venv llama

#进入虚拟环境文件夹（不同电脑文件路径不同）
cd C:\Users\用户名\llama

#激活虚拟环境
\Scripts\activate

#进入llama.cpp文件夹
cd C:\Users\用户名\llama.cpp

#安装环境依赖
pip install -e .

#或者
pip install -r requirements.txt

3、gguf格式转换

# 确保当前处于llama.cpp项目文件夹下
# safetensors转gguf，需要使用llama.cpp提供的convert-hf-to-gguf.py
python convert_hf_to_gguf.py --outfile <要导出的文件地址.gguf> <微调后的模型来源目录>

示例：

python convert_hf_to_gguf.py --outfile /root/autodl-tmp/ggufs/qwen7b_lora.gguf /root/autodl-tmp/exports

参考博客：https://blog.youkuaiyun.com/m0_73365120/article/details/141901884

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

细胞派

关注关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

欺诈文本分类检测（十八）：基于llama.cpp+CPU推理

golfxiao的专栏

11-09

1474

我们用Lora训练出自己的个性化模型后，首先面临的问题是：如何让模型在普通机器上跑起来？毕竟模型微调训练时都是在几十G的专用GPU上训练的，如果换到只有CPU的普通电脑上，可能会面临几秒蹦一个词的尴尬问题。LLama.cpp项目就是来解决这个问题的，它是由Georgi Gerganov开发的一个开源工具，主要用于将大语言模型（LLM）转换为C++代码，使它们可以在任意的CPU设备上运行。无需依赖pytorch和python，而是以c++编译的可执行文件来运行。

【笔记】Hugging Face上面的模型想直接使用的办法： .safetensors格式可以直接转化为.gguf格式供本地（ollama）加载使用

nyist_yangguang的博客

05-30

4017

Link:https://huggingface.co/spaces/ggml-org/gguf-my-repo原文：

参与评论您还未登录，请先登录后发表或查看评论

如何将SafeTensors模型转换为GGUF格式

qq_49035156的博客

10-20

1万+

在这篇文章中，我将指导你如何将Hugging Face的SafeTensors模型转换为GGUF格式，以便在ollama平台上运行。这个过程包括克隆llama.cpp仓库、设置Python环境、安装依赖包，以及执行转换脚本。

llama.cpp的安装和使用

zzw147的博客

06-24

983

3、使用convert_hf_to_gguf_update.py优化convert_hf_to_gguf.py，原因是现在很多模型分词都是BPE模式，没现成的tokenizer.model可以使用，导致convert_hf_to_gguf.py使用时报错找不到tokenizer模型（FileNotFoundError: File not found: tokenizer.model），使用convert_hf_to_gguf_update.py优化后就可以了。1、根据构建好的镜像启动一个容器，并进入容器。

开源大模型safetensors格式转gguf

热门推荐

weixin_46248339的博客

06-06

1万+

执行完成后在[Qwen-1.5 32B文件夹位置]目录下会产生gguf格式的模型文件。格式权重文件，此时需要对给定的权重文件进行转换。网址下载模型文件，具体下载方法这里不再赘述。然后使用如下指令生成gguf格式模型文件。量化后生成的模型文件小很多(18GB)。模型量化的版本有很多，这里选择使用。在使用开源大模型时，多数情况下从。目录相较于之前会多出来很多文件。首先使用以下命令安装所有依赖库。第四步：模型量化（可选）第三步：转gguf格式。第一步：下载模型权重。

llama.cpp 项目使用教程

gitblog_00247的博客

08-08

673

llama.cpp 项目使用教程 1. 项目的目录结构及介绍 llama.cpp 项目的目录结构如下： llama.cpp/ ├── examples/ │ ├── main.cpp │ └── ... ├── include/ │ ├── llama.h │ └── ... ├── src/ │ ├── llama.cpp │ └── ... ├── CMakeLists...

llama.cpp使用

m0_61797126的博客

07-21

3716

由于该库在不断更新，请注意以官方库的说明为准。目前互联网上很多教程是基于之前的版本，而2024年6月12日后库更新了，修改了可执行文件名，导致网上很多教程使用的quantize、main、server等指令无法找到，在当前版本（截至2024年7月20日）这些指令分别被重命名为llama-quantize、llama-cli、llama-server。

大模型部署工具 llama.cpp 介绍与安装使用

youmaob的博客

04-07

1万+

另外一个是量化，量化是通过牺牲模型参数的精度，来换取模型的推理速度。llama.cpp 提供了大模型量化的工具，可以将模型参数从 32 位浮点数转换为 16 位浮点数，甚至是 8、4 位整数。训练的过程，实际上就是在寻找模型参数，使得模型的损失函数最小化，推理结果最优化的过程。训练完成之后，模型的参数就固定了，这时候就可以使用模型进行推理，对外提供服务。大模型时代，企业对人才的需求变了，AIGC相关岗位人才难求，薪资持续走高，AI运营薪资平均值约。llama.cpp 提供了模型量化的工具。

Llama.cpp工具main使用手册

新缸中之脑

09-15

2915

Llama.cpp提供的 main工具允许你以简单有效的方式使用各种 LLaMA 语言模型。它专门设计用于与 llama.cpp 项目配合使用。推荐：用快速搭建可编程3D场景Llama.cpp的工具 main提供简单的 C/C++ 实现，具有可选的 4 位量化支持，可实现更快、更低的内存推理，并针对桌面 CPU 进行了优化。该程序可用于使用 LLaMA 模型执行各种推理任务，包括根据用户提供的提示生成文本以及使用反向提示进行类似聊天的交互。

如何使用llama.cpp将SafeTensors模型转换为GGUF格式并部署ollama

weixin_42684822的博客

10-31

6315

将大模型微调后的SafeTensors格式通过llamacpp转换为GGUF格式,并在ollama上导入使用

使用llama.cpp量化大语言模型

weixin_43217276的博客

07-29

905

其中./your_hf_model_file为你的hf或者gguf格式的模型文件文件夹地址，llama.cpp还支持多种模型格式转换方法，可以去github项目地址自行查看，其中./mymodel/yourmodel.gguf是输出文件夹的地址和输出的gguf格式文件名称，记得一定要以.gguf结尾。在之前的教程中，我们提到了unsloth微调的办法，那时候保存的模型直接为.safetensors格式的，所以我们要先将其转换为gguf FP16格式格式。

【学习笔记】：Ubuntu 22 使用模型量化工具llama.cpp部署大模型 CPU+GPU

qq_44305583的博客

03-13

6267

Ububtu22下模型量化工具llama.cpp及llama-cpp-python部署应用。

大模型safetensors格式转gguf

最新发布

07-14

[^3]: llama.cpp使用教程：大模型safetensors格式转gguf</think>### 如何将大模型的.safetensors文件转换为.gguf格式以下是完整的转换步骤（以Qwen模型为例）： #### 1. 环境准备 ```bash git clone ...

必看！各系统用 llama.cpp 实现 safetensors 转 gguf 格式攻略

hxsyyds49的博客

03-11

2222

例如，在 llama.cpp 项目中，你可以使用相关的推理命令来加载转换后的 GGUF 模型进行测试。通过以上步骤，无论你使用的是 Windows、Mac 还是 Linux 系统，都能顺利地使用 llama.cpp 将 safetensor 格式转换为 gguf 格式，为模型的使用带来更多便利与优化。这里output.gguf是你自定义的转换后 GGUF 格式的文件名，你可以根据自己的需求修改。如果能正常得到模型的回答，说明转换成功，你现在就可以在相应系统中高效使用这个 GGUF 格式的模型啦。

开源大模型框架llama.cpp使用C++ api开发入门

踏莎行的博客

11-24

4530

是一个C++编写的轻量级开源类AIGC大模型框架，可以支持在消费级普通设备上本地部署运行大模型，以及作为依赖库集成的到应用程序中提供类GPT的功能。以下基于llama.cpp的源码利用C++ api来开发实例demo演示加载本地模型文件并提供GPT文本生成。

Llama.cpp运行流程

weixin_60146555的博客

11-07

1259

在极端情况下，温度为 0 将始终选择最可能的下一个 token，从而导致每次运行中产生相同的输出。top-k 的值越高（例如 100），考虑的词元越多，文本就越多样化，而值越低（例如 10），则侧重于最可能的词元，并生成更保守的文本。top-k 的值越高（例如 100），考虑的词元越多，文本就越多样化，而值越低（例如 10），则侧重于最可能的词元，并生成更保守的文本。在极端情况下，温度为 0 将始终选择最可能的下一个 token，从而导致每次运行中产生相同的输出。该选项有助于防止模型生成重复或单调的文本。

(译) Llama.cpp 教程：高效 LLM 推理和实现的完整指南

0x0007 的博客

06-05

1万+

这本关于 Llama.cpp 的全面指南将带你一步步探索设置开发环境、了解其核心功能以及利用其功能解决现实世界问题的必要知识。

AI Transformers 架构体系权重文件类型 safeterson和gguf格式转换【2-1】

码农崛起

04-16

440

AI Transformers 架构体系，kvq cache，token的生成逻辑，与显存关系【2】

开源项目Llama.cpp指南

gitblog_00923的博客

08-08

1377

开源项目Llama.cpp指南 1. 项目介绍 Llama.cpp是一款由Georgi Gerganov开发的开源软件库，主要语言是C++，专注于大型语言模型（LLM）的推理处理。该项目不仅限于一个普通的库，还附带了一个命令行界面（CLI）和Web服务器，用于推动LLM在实际场景中的应用。Llama.cpp的设计理念在于高效利用计算资源，能够在CPU上运行复杂的语言模型，甚至适用于移动设备如And...

llama.cpp如何将safetensors转化为gguf格式

03-11

<think>好的，我现在需要了解如何将safetensors格式转换为gguf格式，特别是使用llama.cpp的方法。首先，我应该确认这两个格式的基本信息。Safetensors是Hugging Face开发的一种安全张量存储格式，旨在替代不安全的pickle格式，而GGUF是llama.cpp团队设计的专用格式，用于高效推理。接下来，我需要查找llama.cpp的官方文档或GitHub仓库，看看是否有相关的转换工具或说明。通常，这类工具会提供脚本或者命令行工具来完成格式转换。假设llama.cpp的仓库中有一个convert.py或者其他类似的脚本，可能支持从safetensors转换到gguf。然后，我需要检查转换步骤。可能的流程是：首先克隆llama.cpp的仓库，安装依赖，然后运行转换脚本，指定输入文件和输出路径。可能还需要考虑模型的类型，比如是LLaMA、Mistral还是其他支持的架构，因为不同模型可能需要不同的处理方式。另外，需要注意PyTorch和safetensors库的安装，确保能够正确加载原始模型文件。转换过程中可能需要指定模型的版本或参数，如上下文长度、数据类型等。如果遇到错误，可能需要查看错误信息，检查文件路径是否正确，依赖版本是否兼容。还有，用户可能需要先使用Hugging Face的transformers库加载模型，再导出为gguf格式。这时候可能需要分步骤：先将safetensors加载为PyTorch模型，再使用llama.cpp的转换工具将其转换为gguf。或者，llama.cpp的转换工具是否直接支持safetensors作为输入？可能还需要注意模型的配置，比如tokenizer的处理，是否需要额外的参数来指定分词器文件或配置。此外，转换后的gguf文件可能需要量化处理，这可能需要使用llama.cpp中的quantize工具，但这属于后续步骤，不是格式转换本身。最后，用户需要确保所有步骤的命令正确，环境配置正确，比如Python版本、必要的库是否安装，是否有足够的权限写入输出目录。如果有问题，可能需要参考社区讨论或Issues中的解决方案。</think>以下是关于使用llama.cpp将safetensors转换为GGUF格式的分步说明： --- ### **步骤1：准备环境** 1. 克隆llama.cpp仓库并编译： ```bash git clone https://github.com/ggerganov/llama.cpp cd llama.cpp && make ``` 2. 安装Python依赖： ```bash pip install torch safetensors sentencepiece ``` --- ### **步骤2：转换流程** 1. **将safetensors转换为PyTorch格式** 确保原始模型文件包含： - `model.safetensors`（权重文件） - `config.json`（模型配置） - `tokenizer.model`或`tokenizer.json`（分词器） 2. **运行llama.cpp转换脚本** 使用内置的`convert-hf-to-gguf.py`脚本： ```bash python3 convert-hf-to-gguf.py \ --model /path/to/safetensors_model_dir \ --outfile /path/to/output.gguf \ --outtype f16 # 可选：指定精度（f32/f16/q8_0等） ``` --- ### **关键参数说明** | 参数 | 作用 | |------|------| | `--model` | 输入模型目录路径 | | `--outfile` | 输出GGUF文件路径 | | `--outtype` | 指定量化类型（默认f32） | | `--vocab-only` | 仅转换词表（调试用） | --- ### **注意事项** 1. **模型兼容性** 仅支持以下架构的转换： - LLaMA / LLaMA-2 - Mistral - Falcon - GPT-J 2. **常见错误处理** - **缺失分词器文件**：确认目录中包含`tokenizer.model` - **CUDA内存不足**：添加`--nosafetensors`跳过安全检查 - **数据类型不匹配**：尝试指定`--outtype f32` --- ### **验证结果** 1. 使用llama.cpp测试加载： ```bash ./main -m /path/to/output.gguf -p "Hello" ``` --- ### **附加操作** - **量化模型**（减小文件体积）： ```bash ./quantize /path/to/output.gguf /path/to/quantized.gguf q4_0 ``` 通过上述步骤，可安全地将Hugging Face的safetensors格式转换为llama.cpp专用的GGUF格式。建议参考[llama.cpp官方Wiki](https://github.com/ggerganov/llama.cpp/wiki)获取最新更新。