将.sefatensors模型文件合并为.gguf模型文件，并使用ollama导入.gguf模型

最新推荐文章于 2025-04-22 01:00:59 发布

chenlei456

最新推荐文章于 2025-04-22 01:00:59 发布

阅读量2.9k

点赞数 41

分类专栏：人工智能大模型 llama 文章标签： llama python ubuntu 人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/chenlei456/article/details/144161045

版权

人工智能同时被 3 个专栏收录

4 篇文章

订阅专栏

4 篇文章

订阅专栏

4 篇文章

订阅专栏

文章目录

使用的系统是ubantu20.04

1.下载llama.cpp

llama.cpp 的量化功能是该项目的一大亮点，它能够对 LLaMA 模型进行量化，从而在不显著损失模型性能的情况下，减小模型的存储大小并提高推理效率，以及将模型合并为GGUF

2.从huggingface（也可以在魔搭社区）下载.sefatensors模型文件

进入官网：https://huggingface.co/

具体操作可以在参考另一篇博客：
https://blog.youkuaiyun.com/chenlei456/article/details/144127535?spm=1001.2014.3001.5501

在这里插入图片描述
点击下拉，即可看到模型文件

如果模型文件就是本来就是.gguf文件，则可以直接使用ollama进行导入（理论可行）
前提你的电脑或者服务器已经安装了ollama
安装ollama:
进入ollama官网：https://ollama.com/
根据自己的情况安装就行
在这里插入图片描述
就可以直接使用ollama进行导入：

在这里插入图片描述

导入的时候，可以选择不同的量化版本
在这里插入图片描述
不同的量化版本精度不同，例如Q2_0的模型文件最小，但模型的精度比Q4_0、Q8_0都更低，Q2_k跟Q2_0的区别是k是0的改进版，提供了另一个优化策略，在两者模型大小差不多的情况下，精度更高一点，后面Q2_k跟着的S、L、M、XL，应该就是跟衣服的码数差不多的意思，你选的越大对你的电脑的硬件要求就更大，F32就是最好的精度，IQ4_XS是电脑内存非常有限才选择。
在这里插入图片描述
出现：

说明没有启动ollama
使用:ollama serve,启动ollama，启动完重新在运行上面命令就行。

理论上这样是可行的，但是huggingface是国外的网站，每次我进行这样操作的时候，都会出现连接超时，并没有成功过。

3.使用llama.cpp合并模型

3.1 下载llama.cpp

git clone https://github.com/ggerganov/llama.cpp

在这里插入图片描述

3.2编译llama.cpp

cd llama.cpp
make -j

在这里插入图片描述

3.3 安装python依赖

pip install - r requirements.txt

3.4 合并为.gguf模型文件

python convert-hf-to-gguf.py FOLDER --outfile OUTPUT --outtype f16

将FOLDER替换为从huggingface下载之后保存本地的.sefetensors模型文件的目录，OUTPUT替换为转换成.gguf的模型保存目录

在这里插入图片描述
转换完成

好像并不支持对视觉的大模型进行转换，只能对语言大模型进行转换

将本地的.gguf模型转换成导入ollama

参考我的另一篇博客：将本地的.gguf文件导入ollama

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。