如何在 Hugging Face Hub 上使用 Ollama 和 GGUF 模型

大家好,今天我们要讨论的是如何在 Hugging Face Hub 上利用 Ollama 应用程序与 GGUF 模型进行交互。这是一个非常强大的工具,可以让你直接在本地计算机上使用大型语言模型,接下来我将逐步带你了解。

图片

首先,什么是 Ollama 呢?Ollama 是一个基于 llama.cpp 的应用程序,它让用户能够轻松地与 LLMs 互动。你可以直接使用 Hugging Face 上社区创建的任何 GGUF 模型,而无需编写新的 Modelfile。这意味着,你可以利用现有的 45,000 个公共 GGUF 检查点,只需输入一条命令,就能快速运行它们。

图片

如何入门

入门非常简单!首先,你需要在本地应用程序设置中启用 Ollama。接下来,在你想使用的模型页面上,从“使用此模型”下拉菜单中选择 Ollama,比如 bartowski/Llama-3.2-1B-Instruct-GGUF。接下来,使用以下格式的命令运行模型:

ollama run hf.co/{username}/{repository}

注意,你可以使用 hf.co  huggingface.co作为域名,这样就更加灵活了。

图片

尝试一些模型

这里有几个推荐的模型,你可以立即尝试:

ollama run hf.co/bartowski/Llama-3.2-1B-Instruct-GGUF
ollama run hf.co/mlabonne/Meta-Llama-3.1-8B-Instruct-abliterated-GGUF
ollama run hf.co/arcee-ai/SuperNova-Medius-GGUF
ollama run hf.co/bartowski/Humanish-LLama3-8B-Instruct-GGUF

自定义量化

Ollama 默认使用 Q4_K_M 量化方案,如果你希望使用不同的量化方案,只需从模型页面的“文件和版本”选项卡中选择你想要的 GGUF 文件,然后在“使用此模型”下拉菜单中选择 Ollama。命令格式如下:

ollama run hf.co/{username}/{repository}:{quantization}

例如:

ollama run hf.co/bartowski/Llama-3.2-3B-Instruct-GGUF:IQ3_M

自定义聊天模板和参数

如果你想自定义聊天模板,可以在你的存储库中创建一个名为 template 的新文件。这个模板必须是 Go 模板,下面是一个示例:

{
  
  { if.System}}<|system|>
{
  
  {.System}}<|end|>
{
  
  {end}}{
  
  {if.Prompt}}<|user|>
{
  
  {.Prompt}}<|end|>
{
  
  {end}}<|assistant|>
{
  
  {.Response}}<|end|>

此外,你还可以通过创建名为 system 的新文件来配置系统提示,或者通过创建名为 params 的文件来更改采样参数。确保这个文件是 JSON 格式的,具体的参数列表可以参考相关文档。

总结

总的来说,Ollama 为我们提供了一个非常便捷的方式去利用 Hugging Face Hub 上的 GGUF 模型,无论是研究、开发还是日常使用,都是一个不可多得的工具。如果你对这项技术感兴趣,不妨试试看!感谢大家的收看,我们下次再见!

### OllamaHugging Face GGUF 的集成与使用 #### 关于 Ollama Ollama 是一种用于管理运行大型语言模型 (LLM) 的工具,支持多种模型格式以及高效的推理能力。通过简单的命令行接口,用户可以轻松加载来自不同来源的预训练模型,并对其进行量化处理以优化性能存储需求[^1]。 #### Hugging Face 集成 Hugging Face 提供了一个庞大的开源模型库,涵盖了各种自然语言处理任务所需的模型。为了将这些模型Ollama 结合起来,可以通过特定 URL 格式指定目标模型及其版本号或量化参数。例如: ```bash ollama run hf.co/lmstudio-community/phi-4-GGUF:Q4_K_M ``` 上述命令会尝试从 Hugging Face Hub 下载 `lmstudio-community` 用户名下的 `phi-4-GGUF` 模型,并应用 Q4_K_M 量化方案来减少内存占用同时保持较高精度。 #### GGUF 文件格式 GGUF(Generalized Graph for Unifying Frameworks)是一种通用框架图文件格式,旨在统一表示机器学习中的复杂结构化数据。它被设计用来保存神经网络权重以及其他元信息以便跨平台移植性互操作性增强。当提到 Phi-4 使用 GGUF 格式时,意味着该模型已经被转换为此种形式从而更容易部署到资源受限设备上或者与其他系统集成。 以下是基于 Python 脚本调用已安装好的 Ollama 模型的一个简单例子: ```python import subprocess def call_ollama(prompt, model="hf.co/lmstudio-community/phi-4-GGUF", quantization="Q4_K_M"): command = f"ollama run {model}:{quantization} --prompt '{prompt}'" result = subprocess.run(command, shell=True, capture_output=True, text=True) return result.stdout.strip() response = call_ollama("Explain quantum mechanics briefly.") print(response) ``` 此脚本定义了一个函数 `call_ollama()` ,允许传入自定义提示符并通过子进程执行相应 Ollama 命令返回生成文本。 ### 总结 综上所述,利用 Ollama 工具可以从 Hugging Face 获取并运行经过量化的 LLM 模型实例;而采用 GGUF 文件格式有助于简化整个流程并提高效率。以上介绍展示了基本概念及实际应用场景下如何实现三者之间的协作关系。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值