Hugging Face模型转换GGUF格式模型

YXWik6

已于 2025-04-14 11:39:14 修改

阅读量442

点赞数 8

CC 4.0 BY-SA版权

分类专栏： AI 大模型文章标签： AI llama

于 2025-04-10 13:59:21 首次发布

本文链接：https://blog.youkuaiyun.com/YXWik/article/details/147117404

大模型同时被 2 个专栏收录

14 篇文章

订阅专栏

13 篇文章

订阅专栏

LLaMA-Factory微调大模型导出的模型时HF格式的而Ollama框架只支持gguf文件格式的自定义模型，所以需要将模型进行转换
开源项目llama.cpp提供的有模型格式转换工具
项目地址：https://github.com/ggerganov/llama.cpp
先下载项目
在这里插入图片描述

解压，在项目下打开cmd命令窗口
在这里插入图片描述

创建虚拟环境

conda create -n  llama_cpp python==3.10

激活

 activate llama_cpp

torch 安装

conda install pytorch==2.3.1 torchvision==0.18.1 torchaudio==2.3.1 pytorchcuda=12.1 -c pytorch -c nvidia

依赖安装

pip install --editable .

安装完成
在这里插入图片描述
llama.cpp官方提供的 convert-hf-to-gguf.py 脚本，用于完成huggingface格式到gguf格式的转换

格式转换

python convert_hf_to_gguf.py F:\tools\models\export

这里的 F:\tools\models\export 是我微调大模型后导出的模型路径
在这里插入图片描述

转换后的模型就可以使用ollama进行加载：ollama加载本地自定义模型

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

YXWik6

关注关注

8
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

【ai】如何在ollama中随意使用hugging face上的gguf开源模型

每日出拳老爷子的博客

06-18

2834

ollama的pull命令可以直接pull ollama列表中现有的模型，但是ollama可以直接pull的模型大都是英语偏好（llama2有直接可以pull的chinese版本），而hugging face上则有大量多语种训练的模型，如果能直接使用hugging face上的gguf开源模型，那就自由多了，本篇介绍方法。

LLM - 使用 HuggingFace + Ollama 部署最新大模型 (GGUF 格式与 Llama 3.1)

AGI

08-08

4698

Ollama 是用于构建和运行大型语言模型(LLM)应用的开源工具，提供了一个简洁易用的命令行界面和服务器，让用户能够轻松下载、运行和管理各种开源 LLM，默认支持大量模型，如果是 HuggingFace 最新模型，或者自制模型，支持转换成 GGUF 格式，再进行调用。

参与评论您还未登录，请先登录后发表或查看评论

huggingface模型转为gguf格式（ollama可本地加载）

AndyChaoss的博客

05-22

542

将 Huggingface 格式的模型转换为 Ollama 支持的 GGUF 格式时，需确保输入路径正确（带中文或空格时加引号），输入为模型文件夹且包含完整权重和配置文件，执行命令示例为 python convert_hf_to_gguf.py --outfile ./model.gguf "模型路径"，并建议查看脚本帮助确认细节参数，以保证转换顺利

如何将HuggingFace 格式的模型文件转换成GGUF 并使用ollama运行

m0_71240768的博客

01-29

1645

模型文件微调时只能使用HuggingFace格式的文件，微调完成后如果想使用ollama进行统一运行，则需要将HuggingFace格式的文件转换成GGUF格式，之后再进一步使用GGUF格式的文件和ollama的Model File完成ollama模型文件的加载。

llama.cpp将HF(Huggingface)模型权重文件至GGUF格式

qq_33733540的博客

06-10

411

在remote server的当前虚拟环境回到根目录后，从github拉取llama.cpp2. 直接进到llama.cpp目录下make是因为现在要求使用cmake就可以make了：（build目录下）等着100%完成就行。

Huggingface 模型转换成gguf并且量化

Harry的博客

08-10

2493

Llama.cpp 是一种在 CPU 和 GPU 上高效运行大型语言模型（LLM）的好方法。不过，它的缺点是需要将模型转换为 Llama.cpp 支持的格式，目前这种格式是 GGUF 文件格式。在这篇博文中，你将学习如何将 HuggingFace 的模型（llama2 7b chat）转换为 GGUF 模型。

使用 llama.cpp 实现从 PyTorch 到 GGUF 的格式转换与量化

学亮编程手记

03-28

1090

量化可显著缩小模型体积，但会损失一定精度。根据需求选择合适的量化类型（如。确保 PyTorch 模型以标准格式保存（如包含。的完整目录），通常通过。

译：《Converting a Hugging Face Model to a GGUF Model》转化HuggingFace原生模型为GGUF格式

dongnihao的博客

03-18

997

前提：在部署视觉模型遇到LM studio中无法搜索到deepseek-vl译文：博客《Converting a Hugging Face Model to a GGUF Model》的。

HuggingFace 模型转换为 GGUF/GGML

u011234288的博客

03-06

1111

环境安装可参照Llama.cpp是在 CPU 和 GPU 上高效运行 LLM 的好方法。缺点但是，您需要将模型转换为 Llama.cpp 支持的格式，现在是 GGUF 文件格式。在这篇博文中，您将学习如何转换HuggingFace 模型（Vicuna 13b v1.5）到 GGUF 模型。

如何在ollama上运行Hugging Face的大语言模型

qq_49035156的博客

10-19

7907

在这篇博客中，我们将探讨如何在ollama平台上运行Hugging Face的大语言模型。ollama是一个强大的工具，它允许我们轻松地部署和运行大型语言模型。以下是详细的步骤，帮助你从零开始，到成功运行模型。

使用llama.cpp把huggingface模型转换为ollama所需要的gguf格式

ATTK_Time的博客

03-11

671

注：此文章用于记录自己在模型格式转换所遇到的一些问题和过程。

AI大模型新趋势：Hugging Face大模型转换为GGUF，为何备受关注？

2401_84204413的博客

04-22

885

GGUF到底是什么？GGUF 是一种专为大语言模型设计的二进制文件存储格式，全称为 GPT - Generated Unified Format。它是一种新型的文件格式，通常用于表示和存储神经网络模型及其相关数据。它是一种统一的、通用的图形格式，旨在简化不同深度学习框架和硬件平台之间的模型交换和转换。GGUF 的主要目标是提供一个标准化的格式，使得神经网络的图结构、权重、参数以及其他相关信息可以在各种平台和工具之间顺利传递。

【大模型】HuggingFace模型转一键llamafile包完整教程，通义千问成功案例分享

surfirst的博客

11-11

1399

随着通义千问开源版的发布，越来越多的用户希望能在本地部署这款优秀的中文大模型。然而，传统的部署方式往往需要复杂的环境配置，让很多非技术背景的用户望而却步。今天，我要向大家介绍一个革命性的方案：将通义千问转换为Llamafile格式，实现真正的一键运行！

LLaMA-Factory微调llama3之模型的合并，并采用llama.cpp量化成ollama支持的gguf格式模型，生成api使用

猪神-PIGGOD

08-08

7632

上期我们已经成功的训练了模型，让llama3中文聊天版知道了自己的名字这次我们从合并模型开始，然后使用llama.cpp量化成gguf格式，并且调用api。

本地DeepSeek模型GGUF文件转换为PyTorch格式

搏博的专栏

02-16

1924

可能的难点在于参数名称的映射和格式转换。接前文，我们在本地Windows系统上，基于GGUF文件部署了DeepSeek模型（DeepSeek-R1-Distill-Qwen-1.5B.gguf版本），但是GGUF是已经量化的版本，我们除了对其进行微调之外，无法对其训练，那么还有没有其他办法对本地的GGUF部署的DeepSeek模型进行训练呢？大端模式是指数据的低位保存在内存的高地址中，而数据的高位保存在内存的低地址中.小端模式是指数据的低位保存在内存的低地址中，而数据的高位保存在内存的高地址中。

将 Hugging Face（HF）模型转换为 GGUF（Guanaco General Universal Format）

沐雪架构师

03-28

527

将 Hugging Face（HF）模型转换为 GGUF（Guanaco General Universal Format）格式，通常需要借助llama.cpp工具。

【AMD平台】编译llama.cpp

最新发布

静谧、淡雅

07-25

285

■环境准备 ■CPU 版本编译 ■GPU 加速编译（ROCm） ■针对特定 AMD GPU 架构优化 ■使用 CMake 的详细配置 ■验证编译结果 ■常见问题和解决方案 ■运行测试

LLaMA-Factory 环境搭建学习笔记

jacke121的专栏

07-23

269

LLaMA-Factory 环境搭建学习笔记

gguf格式转换bin

03-17

### 将 GGUF 格式转换为 BIN 文件的方法要将 GGUF 格式的模型文件转换为 PyTorch 的 `.bin` 文件，需要完成以下几个核心操作： 1. **解析 GGUF 文件** 需要通过工具或库来读取 GGUF 文件的内容。GGUF 是一种二进制格式，包含了模型的权重、架构信息以及其他元数据[^1]。可以利用 `llama.cpp` 提供的相关工具或者自定义脚本来提取这些信息。 2. **重建 PyTorch 模型结构** 在获取到 GGUF 中存储的权重之后，需根据其架构信息重新构建一个与之匹配的 PyTorch 模型类。这一步依赖于对原生模型的理解以及 GGUF 文件中保存的具体参数名称和形状[^3]。 3. **加载权重并保存为 .bin 文件** 使用 PyTorch 的功能将提取出来的权重映射至新建好的模型实例上，并调用 `torch.save()` 方法将其序列化为标准的 `.bin` 文件格式[^2]。以下是实现这一过程的一个示例代码片段： ```python import torch from collections import OrderedDict def load_gguf_to_dict(gguf_file_path): """ 加载 GGUF 文件并将其中的数据转化为字典形式。这里假设存在某种方式能够直接从 gguf 转换成 Python 字典，实际应用时可能需要用到特定库比如 llama-cpp-python 或其他社区开发的支持包。 """ # 假设有一个函数可以从 gguf 文件路径读取出键值对表示的张量集合 tensors = {} # 此处应替换为实际逻辑以真正处理 gguf 数据源 return tensors def convert_tensors_for_pytorch(tensor_dict, model_structure): """ 对齐 tensor 名称使其适配目标 pytorch 模型预期输入的名字列表；同时调整任何必要的维度顺序 (例如 HuggingFace Transformers 库常用列优先布局 vs 行优先)。参数： tensor_dict - 来源于 gguf 解析后的原始张量集合作为 dict 类型传入 model_structure - 已经初始化完毕等待填充权重的目标网络对象返回值：经过修正后可以直接赋给 state_dict() 的有序字典版本 """ converted_state_dict = OrderedDict() for key in model_structure.state_dict().keys(): if key not in tensor_dict: raise KeyError(f"Missing expected parameter '{key}' during conversion.") value = tensor_dict[key].to(torch.float32).clone().detach() # 可能还需要额外变换 shape converted_state_dict[key] = value return converted_state_dict if __name__ == "__main__": input_gguf_filepath = "./example_model.gguf" output_bin_filepath = "./converted_example_model.bin" loaded_data = load_gguf_to_dict(input_gguf_filepath) # 定义你的 PyTorch Model Class 并实例化它作为骨架框架待填充数值进去 class ExampleModel(torch.nn.Module): def __init__(self): super(ExampleModel, self).__init__() ... # 初始化层配置 def forward(self, x): ... example_instance = ExampleModel() aligned_weights = convert_tensors_for_pytorch(loaded_data, example_instance) example_instance.load_state_dict(aligned_weights) torch.save(example_instance.state_dict(), output_bin_filepath) ``` 上述流程展示了如何手动执行从 GGUF 到 `.bin` 的转换工作流。需要注意的是，在具体实践中可能会遇到更多细节上的差异，尤其是不同类型的神经网络之间可能存在显著的设计区别[^4]。 --- ####