简介
本节学习如何使用 Modelfile 来自定义导入模型,主要分为以下几个部分:
- 从 GGUF 导入
- 从 Pytorch 或 Safetensors 导入
- 由模型直接导入
- 自定义 Prompt
一、从 GGUF 导入
GGUF (GPT-Generated Unified Format) 是一种文件格式,用于保存经过微调的语言模型。这种格式旨在帮助用户方便地在不同的平台和环境之间共享和导入模型。它支持多种量化格式,可以有效减少模型文件的大小。
它的前身是 GGML(GPT-Generated Model Language),是专门为了机器学习而设计的 Tensor 库,目的是为了有一个单文件的格式,并且易在不同架构的 CPU 以及 GPU 上可以推理,但后续由于开发遇到了灵活性不足、相容性及难以维护的问题。
Ollama 支持从 GGUF 文件导入模型,通过以下步骤来实现:
- 下载
.gguf文件
下载链接:https://huggingface.co/RichardErkhov/Qwen_-_Qwen2-0.5B-gguf/resolve/main/Qwen2-0.5B.Q3_K_M.gguf?download=true
为了演示的方便,我们选用了 Qwen2-0.5B 模型。下载后复制到第一部分的根目录下
- 新建创建 Modelfile 文件
FROM ./Qwen2-0.5B.Q3_K_M.gguf
- 在 Ollama 中创建模型
ollama create mymodel -f Modelfile

- 终端内运行模型(实测在 notebook 中运行不出来,最好在终端运行)
ollama run mymodel

在Open-weigui中刷新可以得到看到Ollama构建的模型

二、从 Pytorch 或 Safetensors 导入
Safetensors 是一种用于存储深度学习模型权重的文件格式,它旨在解决安全性、效率和易用性方面的问题。目前这部分功能还有待社区成员开发,目前文档资源有限。
如果正在导入的模型是以下架构之一,则可以通过 Modelfile 直接导入 Ollama。当然,你也可以将 safetensors 文件转换为 gguf 文件,再进行处理,转换过程可以参考第三部分。
有关 safetensors 以及 GGUF 更详细的信息可以参考这个链接进行学习 https://www.linkedin.com/pulse/llama-3-safetensors-vs-gguf-talles-carvalho-jjcqf
- LlamaForCausalLM
- MistralForCausalLM
- GemmaForCausalLM
由于这部分内容社区还在不断优化中,因此,这里提供的示例代码和流程仅供参考,并不保证能成功运行。详情请参考官方文档。
- 下载 llama-3 模型
!pip install huggingface_hub
# 下载模型
from huggingface_hub

最低0.47元/天 解锁文章
1万+

被折叠的 条评论
为什么被折叠?



