文章目录
使用的系统是ubantu20.04
1.下载llama.cpp
llama.cpp 的量化功能是该项目的一大亮点,它能够对 LLaMA 模型进行量化,从而在不显著损失模型性能的情况下,减小模型的存储大小并提高推理效率,以及将模型合并为GGUF
2.从huggingface(也可以在魔搭社区)下载.sefatensors模型文件
具体操作可以在参考另一篇博客:
https://blog.youkuaiyun.com/chenlei456/article/details/144127535?spm=1001.2014.3001.5501
点击下拉,即可看到模型文件
如果模型文件就是本来就是.gguf文件,则可以直接使用ollama进行导入(理论可行)
前提你的电脑或者服务器已经安装了ollama
安装ollama:
进入ollama官网:https://ollama.com/
根据自己的情况安装就行
就可以直接使用ollama进行导入:
导入的时候,可以选择不同的量化版本
不同的量化版本精度不同,例如Q2_0的模型文件最小,但模型的精度比Q4_0、Q8_0都更低,Q2_k跟Q2_0的区别是k是0的改进版,提供了另一个优化策略,在两者模型大小差不多的情况下,精度更高一点,后面Q2_k跟着的S、L、M、XL,应该就是跟衣服的码数差不多的意思,你选的越大对你的电脑的硬件要求就更大,F32就是最好的精度,IQ4_XS是电脑内存非常有限才选择。
出现:
说明没有启动ollama
使用:ollama serve
,启动ollama,启动完重新在运行上面命令就行。
理论上这样是可行的,但是huggingface是国外的网站,每次我进行这样操作的时候,都会出现连接超时,并没有成功过。
3.使用llama.cpp合并模型
3.1 下载llama.cpp
git clone https://github.com/ggerganov/llama.cpp
3.2编译llama.cpp
cd llama.cpp
make -j
3.3 安装python依赖
pip install - r requirements.txt
3.4 合并为.gguf模型文件
python convert-hf-to-gguf.py FOLDER --outfile OUTPUT --outtype f16
将FOLDER替换为从huggingface下载之后保存本地的.sefetensors模型文件的目录,OUTPUT替换为转换成.gguf的模型保存目录
转换完成
好像并不支持对视觉的大模型进行转换,只能对语言大模型进行转换
将本地的.gguf模型转换成导入ollama
参考我的另一篇博客:将本地的.gguf文件导入ollama