大模型运行ollama、vllm、huggingface、modelscope

一、ollama

1.1 docker 方式

1.1.1 ollama启动

(1)拉取镜像

docker pull ollama/ollama

(2)启动

docker run -d --restart=always --gpus=all -v /home/docker/ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama
# -v 是存储挂载,之后你使用ollama下载的模型权重都会保存早本地/home/docker/ollama路径下

(3)启动完成后,您可以通过访问 http://<您的IP地址>:11434/api/tags 来查看当前已下载的大模型列表。同时,通过访问 http://<您的IP地址>:11434/api/version 可以获取当前安装的 Ollama 版本信息。
请注意:

  • 在上述 URL 中,请将 <您的IP地址> 替换为您实际的服务器 IP 地址或域名。
  • 对于 Ollama 0.3.0 及以上版本,用户能够配置更多的高级选项,如多并发处理能力和模型后台运行的最大时长等。这些功能可以通过执行特定的命令来实现。
curl http://ip:11434/api/generate -d '{"model":"qwen2:7b","keep_alive": -1}'
# 将qwen2:7b模型一直保持在后台

1.1.2 Open WebUI

在这里插入图片描述
(1)拉取 Open WebUI 镜像

docker pull openwebui/open-webui

(2)运行 Open WebUI 服务

docker run -d -p 8080:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

(3)访问 Open WebUI
打开浏览器,访问 http://ip:8080就能打开以上页面了。
在这里插入图片描述
这个是配置刚刚ollama的服务,保存之后就可以在下面的模型模块看到已有的模型
在这里插入图片描述
在模型管理模块中,您可以下载所需的模型(请注意,模型名称必须准确无误)。为了方便查找和选择合适的模型,您可以访问 Ollama 模型库
完成模型下载后,您就可以开始与模型进行对话了。如果您想探索更多功能,建议搜索有关 Open WebUI 的使用教程,那里有详细的指南和技巧可以帮助您更好地利用这一工具。
在这里插入图片描述

二、huggingface、modelscope

2.1 huggingface方式

Hugging Face 是一个非常流行的开源平台,提供了大量的预训练模型和工具,使得开发者和研究人员可以轻松地使用和微调各种深度学习模型。本文将介绍如何在 Hugging Face 上运行大模型,并提供一些实用的技巧和注意事项。
前提条件:
(1)Python:建议使用 Python 3.7 或更高版本。
(2)Transformers 库:这是 Hugging Face 提供的核心库,包含了大量预训练模型。
(3)Torch 或 TensorFlow:根据您的需求选择其中一个深度学习框架。
由于官网需要科学上网的方式才能访问,所以推荐使用国内的镜像 https://hf-mirror.com
在这里插入图片描述
对应的每个大模型下都会有如何调用的方法:
在这里插入图片描述
代码默认的是使用官网下载大模型,我们可以直接使用以上的镜像网址在网页上进行下载

<think>首先,用户的问题是:“请问modelscope 下载的模型如何在ollama中推理”。这似乎是关于如何在Ollama中使用从ModelScope下载的模型进行推理。 从系统指令中,我需要: - 使用中文回答。 - 结构清晰,逐步解决问题。 - 确保回答真实可靠。 - 在引用的段落末尾添加引用标识。 - 生成相关问题。 - 对于数学表达式,使用$...$或$$...$$格式(但在这个上下文中,可能没有数学内容)。 参考的引用内容: - [^1]:Ollama支持通过Modelfile配置文件自定义参数,ModelScope会自动生成配置。 - [^2]:Ollama可以直接运行ModelScope上的GGUF模型,使用命令如`ollama run modelscope.cn/Qwen/Qwen2.5-3B-Instruct-GGUF`。 - [^3]:Ollama是一个轻量级部署框架。 - [^4]:讨论了Ollama下载的模型为什么比HuggingFace/ModelScope的小,可能涉及模型格式。 用户意图:用户想了解如何将ModelScope下载的模型在Ollama中进行推理。 关键点: - ModelScope提供GGUF格式的模型。 - Ollama可以直接加载和运行这些模型。 - 需要特定的命令或配置。 步骤: 1. **下载模型**:用户需要从ModelScope下载模型。ModelScope是一个平台,托管各种模型。 2. **模型格式**:确保模型是GGUF格式,因为Ollama支持这种格式。 3. **使用Ollama运行**:通过Ollama的命令直接运行模型。 从引用[^2]:可以直接运行命令如`ollama run modelscope.cn/Qwen/Qwen2.5-3B-Instruct-GGUF`。这意味着用户不需要手动下载模型;Ollama可以直接从ModelScope拉取模型。 引用[^1]提到,ModelScopeOllama对接,自动生成配置。 所以,回答应该包括: - 如何安装Ollama(如果用户不知道)。 - 如何直接运行ModelScope模型。 - 可能涉及配置,但根据引用,它是自动的。 结构化回答: 1. **介绍**:简要解释ModelScopeOllama。 2. **步骤**: - 确保安装了Ollama。 - 使用`ollama run`命令直接指定ModelScope模型路径。 - 示例命令。 3. **注意事项**:模型必须是GGUF格式;Ollama会处理下载和配置。 4. **生成相关问题**:在最后添加相关问题。 回答必须使用中文。 生成相关问题: - 基于主题:模型部署、推理、优化等。 - 例如: 1. 如何安装和配置Ollama? 2. ModelScope上有哪些推荐的GGUF模型? 3. 如何优化Ollama中的推理性能? 4. 与其他框架(如vLLM)相比,Ollama有什么优势? 确保引用:在回答中,如果引用特定信息,添加引用标识。例如,提到自动生成配置时,引用[^1]。 最终回答结构: - 开头:直接回答问题。 - 主体:分步解释。 - 结尾:相关问题。</think>### 如何在Ollama中使用ModelScope下载的模型进行推理 要在Ollama中使用从ModelScope下载的模型进行推理,您需要确保模型是GGUF格式(一种高效的量化格式),因为Ollama原生支持这种格式。ModelScope平台已与Ollama集成,可以自动处理模型配置和加载过程,简化了部署。以下是详细步骤(基于真实可靠的实践指南): #### 步骤1: 安装和准备Ollama - 首先,确保您的系统已安装OllamaOllama是一个轻量级框架,支持本地模型推理,适用于Windows、macOS和Linux。如果未安装,请从[Ollama官网](https://ollama.com/)下载并运行安装程序。 - 安装后,在终端或命令行中验证安装:运行`ollama --version`,确保输出版本号(如`v0.1.36`)。 #### 步骤2: 从ModelScope获取GGUF模型 - ModelScope托管了大量GGUF格式的模型(例如LLM或多模态模型)。您无需手动下载模型文件到本地,Ollama可以直接从ModelScope拉取模型。 - 在ModelScope网站上,找到您所需的GGUF模型。例如,访问[ModelScope模型库](https://www.modelscope.cn/models),搜索关键词如"GGUF",选择模型(如`Qwen/Qwen2.5-3B-Instruct-GGUF`)。 - 关键点:ModelScope会自动为每个GGUF模型生成Ollama所需的配置文件(包括推理模板和参数),无需手动配置[^1]。 #### 步骤3: 使用Ollama运行模型进行推理 - 在终端中,直接使用`ollama run`命令指定ModelScope模型的完整路径。Ollama会自动下载模型(如果首次使用)并启动推理服务。 - 命令格式:`ollama run modelscope.cn/<模型路径>`,其中`<模型路径>`是ModelScope模型页面的标识符。 - 示例:运行Qwen模型: ```bash ollama run modelscope.cn/Qwen/Qwen2.5-3B-Instruct-GGUF ``` 执行后,Ollama会下载模型(下载进度显示在终端),完成后进入交互式推理界面。您可以输入文本提示(如"解释一下机器学习"),模型会生成响应[^2]。 - 推理完成后,模型会缓存在本地(路径通常为`~/.ollama/models/`),后续运行无需重新下载。 #### 注意事项 - **模型格式要求**:Ollama仅支持GGUF格式模型。如果您在ModelScope下载的是其他格式(如PyTorch),需先转换为GGUF(使用工具如`llama.cpp`),但ModelScope上的GGUF模型已优化,可直接使用[^4]。 - **性能优化**:对于大型模型,Ollama默认使用系统资源(如CPU/GPU)。您可以在运行命令中添加参数调整性能,例如`--num-gpu-layers 20`来启用GPU加速(具体参数参考[Ollama文档](https://github.com/ollama/ollama))。 - **常见问题**: - 如果下载失败,检查网络连接或ModelScope模型可用性。 - 推理速度取决于硬件;建议至少8GB RAM用于中小型模型。 - 优势:Ollama提供轻量级部署,适合本地隐私保护和低成本场景,而ModelScope集成简化了配置[^3]。 通过以上步骤,您可以在几分钟内启动ModelScope模型的推理任务。如果您已下载模型文件(.gguf后缀),也可通过Ollama的Modelfile自定义加载,但直接运行命令更高效[^1]。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值