【自然语言处理与大模型】Ollama拉取huggingface社区或modelscope社区的GGUF模型并部署

原创

已于 2025-04-25 05:21:52 修改

· 1.1k 阅读

13 ·

版权

文章标签：

#自然语言处理 #人工智能 #python

于 2024-12-17 03:46:09 首次发布

huggingface社区和魔塔社区上的gguf模型现在都支持了ollama部署模型。本文做一个简单的使用总结，详细的官方文档我放在文末。

一、快速使用命令

（1）huggingface

ollama拉取并部署gguf模型命令

# hf.co是huggingface社区
# username/repository是模型在社区的路径
ollama run hf.co/{username}/{repository}

国内用户可以将hf.co改成hf-mirror.com

ollama run hf-mirror.com/{username}/{repository}

拉取带量化的gguf模型

# 命令
ollama run hf.co/{username}/{repository}:{quantization}
# 以千问模型为例
ollama run hf.co/Qwen/Qwen2.5-1.5B-Instruct-GGUF:Q2_K

实际跑一下命令，发现huggingface社区拉取GGUF模型巨慢无比！

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

小oo呆

关注关注

8
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

ollama竟然可以直接加载huggingface上的gguf格式的模型？还支持通过镜像网站对下载过程加速？

xiezhipu的博客

02-27

475

当开发者们还在为模型部署的复杂流程焦头烂额时，Ollama在2024年10月的史诗级更新彻底改写了游戏规则。这个被称为"AI界的Docker"的工具，不仅实现了对HuggingFace Hub上45,000+个GGUF格式模型的一键加载，还贴心地为中国开发者打通了镜像加速通道。本文将深度解析这项技术突破的底层逻辑，并手把手教你玩转这两个革命性功能。SYSTEM "你是一个专业的中文法律顾问"

DeepSeek-R1-0528-Qwen3-8B 本地ollama离线运行使用和llamafactory lora微调

最新发布

weixin_42357472的博客

05-30

750

支持直接下载：Ollama拉取huggingface社区或modelscope社区的GGUF模型并部署。

参与评论您还未登录，请先登录后发表或查看评论

使用Ollama配置本地微调的gguf模型文件

weixin_43217276的博客

07-30

3562

在之前的文章中，我们已经得到了经过我们微调的大语言模型，不管是在本地部署使用或者是用OpenWebUI界面部署在服务器上达到和chatGPT界面类似的效果，使用Ollama部署一定是最好的选择。以下均为在Ubuntu系统（Linux）上的测试。

大模型转换为 GGUF 并使用Ollama部署

Y525698136的博客

04-14

1242

下载的模型都是GGUF格式，那如何部署私有大模型呢？

【自然语言处理与大模型】Ollama部署本地GGUF模型

qq_39780701的博客

12-17

1722

使用Ollama部署本地GGUF格式的模型。

TensorFlow相关组件的安装

AAI666666的博客

01-11

2868

TensorFlow相关组件的安装

在Ollama运行HuggingFace下载的模型

Langchain的博客

07-29

5436

本地运行模型我之前都直接使用LM-studio，好用、无脑。本地用足够了。但是放在服务器上才是正道，本地运行无法长时间开启保持运行，而且Ollama推出了并行GPU计算之后可用性大幅提升，可用性很高。今天研究下如何用Ollama如何在本地来使用这些HF的开源模型，后面把它搬到服务器上。

ollama轻松拉取huggingface上的大模型

Ven%的博客

12-04

4332

命令时，Ollama都会尝试从模型库中拉取GGUF模型，这可能会导致空间浪费，因为每次都会重新下载模型。：由于国内网络环境的问题，可能无法直接访问huggingface.co，可以将网址替换为镜像站网址hf-mirror.com，例如将。：执行上述命令后，Ollama会检查本地是否有该模型，如果没有，会自动从Hugging Face或镜像站下载，并运行该模型。：访问Hugging Face官网，找到你需要的大模型，并记录下模型的网址。是模型的量化版本，如果不写的话默认为。，即最新发布的版本。

从零到一教会你ollama大模型本地部署与应用，老师都说写得好！

weixin_47006778的博客

05-06

2540

0 大模型本地部署

qq_28611929的博客

01-03

210

首先是Agent（智能体）：大模型应用中的Agent是指基于大型预训练模型开发的智能体，它们能够执行各种复杂的任务，如自然语言处理（NLP）、图像识别、语音处理等。这些Agent通常是通过深度学习框架和大量的数据进行训练，以获得对特定领域问题的理解能力和解决能力。之前对大模型介绍以及微调写了很多，但是没有一个成熟的应用案例以及体系，从现在我们一起开始基于大模型应用学习，如何落地这些大模型。这里简单介绍，后续直接上代码；

Ollama 升级！支持一键拉取Huggingface上所有的模型，太方便了！（vLLM、Fastgpt、Dify、多卡推理）

huang9604的博客

12-16

3663

Ollama 之所以出色，是因为它使用了 GGML 格式，这是一种‘轻量版’的大语言模型，以较低精度运行，能够轻松适配普通硬件。这使得在本地系统上运行这些模型变得简单高效，真正为 AI 的广泛应用铺平了道路。

Ollama 运行从 ModelScope 下载的 GGUF 格式的模型(DeepSeek 为例)

01-29

4986

Windows 10。

（踩坑日记）Ollama部署本地微调后的GGUF模型

hjy6666hjy的博客

11-20

2185

在这里插入图片描述](https://i-blog.csdnimg.cn/direct/1dac1f9e26c74d31b2ec9df957425997.png。1、创建一个文件夹（或者在原来文件也行，）用于存放GGUF文件和modelfile文件。后面网上找资料发现是modelfile文件命名的问题。后面发现是Modelfile文件命名错误。3、在之前的文件夹中打开终端，输入。4、最后运行一下你的模型。

Linux的Ollama离线部署与各模型gguf文件离线导入

qq_45875033的博客

03-07

1733

curl --location --request POST 'http://127.0.0.1:11434/api/generate' \--header 'Content-Type: application/json' \--data '{"model": "deepseek-14b","stream": false, "prompt": "1加1等于几?修改vi /etc/systemd/system/ollama.service，修改里面的11434。5、修改环境的端口，让外部服务器可以访问。

Ollama 通过GGUF 文件本地运行任何开源大模型

qq_42881308的博客

03-28

8683

3、打开ollama 终端输入：ollama create baichuan2-7b -f Modelflie.txt。1、下载 GGUF --》Hugging Face 里搜索下载（baichuan gguf、qwen gguf）创建一个新的模型文件名字【baichuan2-7b】使用读取 Modelflie.txt 文件。2、下载文件到本地后然后在同目录创建一个 txt 文建。

ollama把huggingface下载下来的模型转换为gguf

abments的博客

05-16

5288

ollama把huggingface下载下来的模型转换为gguf

如何在ollama上运行Hugging Face的大语言模型

qq_49035156的博客

10-19

7796

在这篇博客中，我们将探讨如何在ollama平台上运行Hugging Face的大语言模型。ollama是一个强大的工具，它允许我们轻松地部署和运行大型语言模型。以下是详细的步骤，帮助你从零开始，到成功运行模型。

【自然语言处理与大模型】魔塔社区免费实例中使用ollama快速部署llama3

qq_39780701的博客

11-19

4306

在ModelScope魔塔社区提供的免费实例，使用ollama部署开源llama3模型。

人工智能学习（AI大模型）必须要知道的两个网站 Ollama 和 Hugging Face 文章里含【Ollama 安装部署教程】

Json的知识梦工厂

02-10

1988

概述HuggingFace 是一个知名的开源平台，专注于自然语言处理（NLP）和机器学习领域。它提供了大量预训练的大型语言模型（LLMs），如 GPT-3、BERT 和 RoBERTa，并构建了一个丰富的生态系统，支持模型的微调、评估和部署。HuggingFace 的目标是让开发者和研究人员能够轻松访问和使用这些先进的模型，推动 AI 技术的普及和应用。核心功能与特点预训练模型库：HuggingFace 提供了全球最大的预训练模型库之一，涵盖了 NLP、计算机视觉、语音处理等多个领域。

ollama拉取huggingface模型

03-21

<think>好的，我需要帮助用户解决如何使用Ollama从HuggingFace拉取模型的问题。首先，我要回顾用户提供的引用内容，特别是引用[1]和引用[2]，这些内容提供了关键步骤。首先，用户提到的引用[1]中提到了Ollama在HuggingFace Hub中使用GGUF模型的方法，以及加载ModelScope模型的集成。这说明用户可能需要通过HuggingFace的模型仓库找到支持的GGUF格式模型，然后使用Ollama进行加载。引用[2]中提到了运行HuggingFace下载的模型需要修改Modelfile，调整模板、系统参数等，特别是对中文支持的问题。因此，用户可能需要配置这些参数来优化模型的中文表现。接下来，我需要整理步骤。第一步是确认HuggingFace上的模型是否支持GGUF格式，因为Ollama可能需要这种格式。用户需要访问HuggingFace网站，搜索并确认模型是否有GGUF版本。第二步是创建Modelfile，指定模型文件的路径或URL，可能还需要添加模板和参数设置。引用[2]提到需要调整TEMPLATE、SYSTEM等，这可能涉及在Modelfile中添加相应的指令。第三步是构建并运行模型，使用ollama create和ollama run命令。最后，可能需要配置API接口以便其他应用使用，例如通过ollama serve命令暴露端口。另外，用户可能遇到模型不支持中文的情况，这时候需要在Modelfile中添加SYSTEM指令来设定中文环境，如引用[2]所述。同时，需要注意模型路径的正确性，确保Ollama能够访问到HuggingFace上的模型文件，可能需要使用wget下载到本地，或者直接引用URL。可能还需要考虑权限问题，比如是否需要在HuggingFace上获取访问令牌，特别是私有模型的情况。但根据引用内容，用户可能使用的是公开模型，所以暂时不需要处理这个。另外，如果模型文件较大，下载时间可能较长，需要确保网络连接稳定。最后，生成相关问题需要考虑用户在操作过程中可能遇到的疑问，比如模型格式、中文支持、API配置等，以及优化方法和常见错误的解决。</think>以下是使用Ollama拉取HuggingFace模型的步骤详解： ### 一、获取HuggingFace模型 1. 访问[HuggingFace模型库](https://huggingface.co/models)，搜索支持GGUF格式的模型（如Llama3、Mistral等） 2. 找到模型的GGUF文件下载链接，例如： ```bash wget https://huggingface.co/TheBloke/Llama-3-8B-GGUF/resolve/main/llama-3-8b.Q4_K_M.gguf ``` ### 二、创建Modelfile 新建`Modelfile`并添加配置（以Llama3中文优化为例）： ```dockerfile FROM ./llama-3-8b.Q4_K_M.gguf SYSTEM """你是一个中文AI助手，使用口语化中文回答""" PARAMETER temperature 0.7 TEMPLATE """[INST] {{ .Prompt }} [/INST]""" ``` ▲ 关键配置说明： - `SYSTEM`：强制模型使用中文交互[^2] - `TEMPLATE`：适配模型要求的指令格式 - `PARAMETER`：调整生成参数 ### 三、构建并运行模型 ```bash ollama create example -f Modelfile # 创建模型 ollama run example # 启动交互 ``` ### 四、API对接配置后台运行并暴露API接口： ```bash ollama serve & # 默认监听11434端口 curl http://localhost:11434/api/generate -d '{ "model": "example", "prompt": "你好", "stream": false }' ``` ### 注意事项 1. 建议选择量化版本（如Q4_K_M）平衡性能与显存占用 2. 中文支持需通过`SYSTEM`指令显式指定 3. 首次加载需要模型编译时间（约5-10分钟）