Ollama:大模型部署工具安装及使用

Ollama大模型部署工具安装与使用指南

原创已于 2025-03-16 15:50:03 修改 · 1.3k 阅读

22 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

于 2025-03-16 00:23:44 首次发布

部署运行你感兴趣的模型镜像

Ollama 是一个开源的本地大语言模型（LLM）运行框架，允许用户在自己的计算机上轻松部署和运行各种大型语言模型，如 LLaMA、Mistral 等。它支持多种操作系统，包括 Windows、macOS 和 Linux，并提供了命令行界面和 REST API 接口；接下来我们就来尝试本地安装并部署一下大模型；

一、安装

1.1 系统要求

硬件：建议至少8GB内存，40GB以上磁盘空间（推荐SSD），对于GPU加速建议NVIDIA显卡，显存至少8GB；
软件：
- Windows 10或更新版本（64位）
- macOS 10.15或更新版本
- Ubuntu 20.04+ 或其他Linux发行版
- CUDA Toolkit（如果需要GPU支持）

1.2 下载安装包

登陆Ollama官网，选择对应系统的安装包下载，Mac和Windows按照提示安装即可，Linux在终端执行官网提供的指令；

安装完毕后在终端执行如下指令查看版本号，出现版本号表示安装成功；

# 查看版本号
ollama --version

二、运行

2.1 启动

终端输入下面指令启动Ollama；

ollama serve

到浏览器访问 ‘127.0.0.1:11434’ ，如果页面出现 ‘Ollama is running’表示启动成功；

2.2 拉取模型

在终端通过下面命令拉取模型，具体模型名称及版本号可以到Ollama官方的模型库寻找；

# 以deepseek-R1为例
ollama pull deepseek-r1:1.5b

2.3 部署大模型

在终端通过如下指令运行大模型：

# 以上面拉取的deepseek-R1为例
ollama run deepseek-r1:1.5b

在终端输入你的问题，就可以简单实现与大模型的对话了；

2.4 自定义模型加载

通过PULL命令只可以拉取官方商城维护的预训练模型，如果我们通过LLaMA-Factory等工具微调了一个垂类大模型，想通过Ollama来部署，该如何操作呢？

2.4.1 创建Modelfile

首先，我们需要创建一个Modelfile文件，在这个文件中，我们需要指定包含safetensors模型权重的文件夹的绝对路径，具体内容如下：

# Modelfile
FROM /path/to/safetensors/directory

2.4.2 创建模型

紧接着在Modelfile同级目录运行如下命令来创建模型，myself-model为创建的模型的名字，可以自由定义：

ollama create myself-model

2.4.3 运行模型

通过如下命令可以查看创建的模型是否已经存在；

ollama list

如果在模型列表中看到有自己创建的模型，就可以像运行上面模型一样来运行自定义模型：

ollama run myself-model:latest

2.5 其他常用命令

命令	作用
ollama rm model_name	删除列表加载的模型
ollama cp model1 model2	复制现有模型model1命名为model2
ollama show model_name	展示模型的详细信息
ollama ps	列出当前加载的模型
ollama stop model_name	关闭指定模型

三、模型调用

通过‘ollama serve’命令就可以开启Ollama服务，上面介绍了通过CLI（命令行界面）访问Ollama服务，但其实Ollama还支持多种形式的访问，例如通过API，或者通过python脚本访问等，这里我们简单列举一下如何通过API和python的方式进行模型调用；

3.1 API调用

前面通过‘ollama serve’命令开启Ollama服务后，Ollama会同时对外提供一个11434的本地访问端口，下面我们使用curl命令进行模型调用；

在本地电脑新打开一个终端，输入下面的命令，即可访问指定模型：

curl http://localhost:11434/api/generate -d '{
  "model": "deepseek-r1:1.5b",
  "prompt":"请介绍你自己！"
}'

注意：
1）http请求中的localhost是本地回环地址，即127.0.0.1；
2）11434是Ollama默认端口号；
3）api/generate是服务端对应功能的路由；
4）-d后面的字符串是访问的请求数据，包含模型名称以及提示词；

3.2 python调用

Ollama同时也提供了pythonAPI的第三方安装包，通过编写python脚本即可调用；

# 安装ollama python安装包
pip install ollama

创建一个python脚本：

import ollama
resp = ollama.chat(model="deepseek-r1:1.5b",
                   messages=[{"role":"user","content":"请介绍一下你自己！"}])
print(resp["message"]["content"])