打造自己的大模型｜03篇使用llama.cpp量化并在Mac上私有部署ChatGPT

最新推荐文章于 2025-07-02 07:00:00 发布

Langchain

最新推荐文章于 2025-07-02 07:00:00 发布

阅读量1.1k

点赞数 17

CC 4.0 BY-SA版权

文章标签： llama chatgpt prompt RAG 人工智能产品经理大模型

本文链接：https://blog.youkuaiyun.com/Langchain/article/details/141438280

在之前的两篇文章中，我们利用LLaMA-Factory微调工具包，对Llama3模型，进行了中文语料适配的微调。并进行的微调大模型的评估和合并导出操作。

本篇文章，我们将对微调之后的大模型，进行量化处理，并在本地部署打造一个属于我们自己的ChatGPT。

认识GGUF格式

在之前的文章《本地部署中文Llama3并用弱智吧测试》中，我们知道Ollama可以运行GGUF导入的模型文件。

如何将我们训练的.safetensors格式文件转化为GGUF格式的文件，首先需要了解什么是GGUF格式文件。

大语言模型的开发通常使用PyTorch等框架，其预训练结果通常也会保存为相应的二进制格式，如pt后缀的文件通常就是PyTorch框架保存的二进制预训练结果。

我们在huggingface**上面看到很多.safetensors和.bin格式的模型文件，但我们在使用LM Studio，Ollama等客户端模型整合工具都会使用到GGUF格式的模型文件。

在这里插入图片描述

Georgi Gerganov（https://github.com/ggerganov）是著名开源项目llama.cpp（https://github.com/ggerganov/llama.cpp）的创始人，它最大的优势是可以在CPU上快速地进行推理而不需要 GPU。

创建llama.cpp后，作者将该项目中模型量化的部分提取出来做成了一个用于机器学习张量库：GGML（https://github.com/ggerganov/ggml），项目名称中的GG其实就是作者的名字首字母。它与其他张量库（tensor library）最大的不同，就是支持量化模型在CPU中执行推断。从而实现了低资源部署LLM。

而它生成的文件格式最初只存储了张量，这就是GGML工具，后来由于一些不足：

它无法有效地识别不同的模型架构，对超参数的添加和移除具有破坏性，这使得模型的迭代和升级变得复杂。

为此，在2023年8月份，Georgi Gerganov推出了GGUF作为后续的替代者，即：GGUF格式标准:

https://github.com/ggerganov/ggml/blob/master/docs/gguf.md

GGUF (GPT-Generated Unified Format) 是一种二进制模型文件格式，
专为GGML及其执行器快速加载和保存模型而设计。
GGUF 是 GGML、GGMF 和 GGJT 的后继文件格式，通过包含加载模型所需的所有信息来确保明确性。
GGUF 被设计为可扩展的，以便可以在不破坏兼容性的情况下将新信息添加到模型中。

安装llama.cpp

在Mac M1芯片**的环境下，我们选择用homebrew安装。需要提前在Mac上安装好homebrew软件。

brew install llama.cpp

在这里插入图片描述

其他操作系统环境可以参考官方文档：https://github.com/ggerganov/llama.cpp/blob/master/README.md

利用llama.cpp转换成GGUF格式

参考文档：https://github.com/ggerganov/llama.cpp/blob/master/README.md#prepare-and-quantize

git clone --depth 1 https://github.com/ggerganov/llama.cpp.git

// 安装python依赖包
pip install -r requirements.txt

llama.cpp官方提供了转换脚本，可以将pt格式的预训练结果以及safetensors模型文件转换成GGUF格式的文件。

执行convert-hf-to-gguf.py文件，可以将model转化为GGUF格式：

python convert-hf-to-gguf.py models/mymodel/

在这里插入图片描述

在所在文件夹下，就会生成一个ggml-model-f16.gguf文件，当前模型权重参数的精度是f16。

在这里插入图片描述

将文件改名成xiaowu5759-llama3-chinese-f16.gguf。

量化模型并导入Ollama

量化模型，可以执行llama.cpp命令来进行量化：

# quantize the model to 4-bits (using Q4_K_M method)
./llama-quantize ./models/mymodel/ggml-model-f16.gguf ./models/mymodel/ggml-model-Q4_K_M.gguf Q4_K_M

同时也可以选择Ollama量化，Ollama导入GGUF格式文件，支持将f16.gguf模型文件在导入时候执行量化操作。

参考文档：Ollama导入模型 https://github.com/ollama/ollama/blob/main/docs/import.md

创建Modelfile文件：

FROM ./xiaowu5759-llama3-chinese-f16.gguf
TEMPLATE """{{ if .System }}<|start_header_id|>system<|end_header_id|>

{{ .System }}<|eot_id|>{{ end }}{{ if .Prompt }}<|start_header_id|>user<|end_header_id|>

{{ .Prompt }}<|eot_id|>{{ end }}<|start_header_id|>assistant<|end_header_id|>

{{ .Response }}<|eot_id|>"""
PARAMETER stop "<|start_header_id|>"
PARAMETER stop "<|end_header_id|>"
PARAMETER stop "<|eot_id|>"
PARAMETER stop "<|reserved_special_token"

执行命令：

ollama create -q Q4_0 xiaowu5759-llama3-chinese:8b

在这里插入图片描述

可以选择的量化等级有：

在这里插入图片描述

查看导入模型信息：

ollama show xiaowu5759-llama3-chinese:8b

在这里插入图片描述

导入完成，文件的大小占用了4.7GB。

open-webui进行对话测试

open-webui是一个为Ollama运行模型打造的WebUI页面。

多轮简单对话：

在这里插入图片描述

全程都是采用中文问答的形式，没有出现中英混答的现象。

编写代码能力测试：

在这里插入图片描述

至此，我们就完整的从数据准备，模型准备，微调训练，到模型评估测试，模型合并导出，到量化部署大模型，打造了一个完全属于我们自己的ChatGPT应用了。

大模型时代，火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业？”“谁的饭碗又将不保了？”等问题热议不断。

事实上，抢你饭碗的不是AI，而是会利用AI的人。

继科大讯飞、阿里、华为等巨头公司发布AI产品后，很多中小企业也陆续进场！超高年薪，挖掘AI大模型人才！ 如今大厂老板们，也更倾向于会AI的人，普通程序员，还有应对的机会吗？

与其焦虑……

不如成为「掌握AI工具的技术人」，毕竟AI时代，谁先尝试，谁就能占得先机！

但是LLM相关的内容很多，现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学，学习成本和门槛很高。

针对所有自学遇到困难的同学们，我帮大家系统梳理大模型学习脉络，将这份 LLM大模型资料 分享出来：包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴，可以 扫描下方二维码领取🆓↓↓↓

👉优快云大礼包🎁：全网最全《LLM大模型入门+进阶学习资源包》免费分享（安全链接，放心点击）👈

一、LLM大模型经典书籍

AI大模型已经成为了当今科技领域的一大热点，那以下这些大模型书籍就是非常不错的学习资源。

在这里插入图片描述

二、640套LLM大模型报告合集

这套包含640份报告的合集，涵盖了大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。(几乎涵盖所有行业)

在这里插入图片描述

三、LLM大模型系列视频教程

在这里插入图片描述

四、LLM大模型开源教程（LLaLA/Meta/chatglm/chatgpt）

在这里插入图片描述

LLM大模型学习路线 ↓

阶段1：AI大模型时代的基础理解

目标：了解AI大模型的基本概念、发展历程和核心原理。
内容：
- L1.1 人工智能简述与大模型起源
- L1.2 大模型与通用人工智能
- L1.3 GPT模型的发展历程
- L1.4 模型工程
- L1.4.1 知识大模型
- L1.4.2 生产大模型
- L1.4.3 模型工程方法论
- L1.4.4 模型工程实践
- L1.5 GPT应用案例

阶段2：AI大模型API应用开发工程

目标：掌握AI大模型API的使用和开发，以及相关的编程技能。
内容：
- L2.1 API接口
- L2.1.1 OpenAI API接口
- L2.1.2 Python接口接入
- L2.1.3 BOT工具类框架
- L2.1.4 代码示例
- L2.2 Prompt框架
- L2.3 流水线工程
- L2.4 总结与展望