将.sefatensors模型文件合并为.gguf模型文件,并使用ollama导入.gguf模型

使用的系统是ubantu20.04

1.下载llama.cpp

        llama.cpp 的量化功能是该项目的一大亮点,它能够对 LLaMA 模型进行量化,从而在不显著损失模型性能的情况下,减小模型的存储大小并提高推理效率,以及将模型合并为GGUF

2.从huggingface(也可以在魔搭社区)下载.sefatensors模型文件

进入官网:https://huggingface.co/

具体操作可以在参考另一篇博客:
https://blog.youkuaiyun.com/chenlei456/article/details/144127535?spm=1001.2014.3001.5501

在这里插入图片描述
点击下拉,即可看到模型文件

如果模型文件就是本来就是.gguf文件,则可以直接使用ollama进行导入(理论可行)
前提你的电脑或者服务器已经安装了ollama
安装ollama:
进入ollama官网:https://ollama.com/
根据自己的情况安装就行

在这里插入图片描述
就可以直接使用ollama进行导入:

在这里插入图片描述

导入的时候,可以选择不同的量化版本
在这里插入图片描述
不同的量化版本精度不同,例如Q2_0的模型文件最小,但模型的精度比Q4_0、Q8_0都更低,Q2_k跟Q2_0的区别是k是0的改进版,提供了另一个优化策略,在两者模型大小差不多的情况下,精度更高一点,后面Q2_k跟着的S、L、M、XL,应该就是跟衣服的码数差不多的意思,你选的越大对你的电脑的硬件要求就更大,F32就是最好的精度,IQ4_XS是电脑内存非常有限才选择。
在这里插入图片描述
出现:
在这里插入图片描述
说明没有启动ollama
使用:ollama serve,启动ollama,启动完重新在运行上面命令就行。
在这里插入图片描述
理论上这样是可行的,但是huggingface是国外的网站,每次我进行这样操作的时候,都会出现连接超时,并没有成功过。

3.使用llama.cpp合并模型

3.1 下载llama.cpp
git clone https://github.com/ggerganov/llama.cpp

在这里插入图片描述

3.2编译llama.cpp
cd llama.cpp
make -j

在这里插入图片描述

3.3 安装python依赖
pip install - r requirements.txt
3.4 合并为.gguf模型文件
python convert-hf-to-gguf.py FOLDER --outfile OUTPUT --outtype f16 

将FOLDER替换为从huggingface下载之后保存本地的.sefetensors模型文件的目录,OUTPUT替换为转换成.gguf的模型保存目录

在这里插入图片描述
转换完成
在这里插入图片描述

好像并不支持对视觉的大模型进行转换,只能对语言大模型进行转换

将本地的.gguf模型转换成导入ollama

参考我的另一篇博客:将本地的.gguf文件导入ollama

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值