【大模型】Ubuntu下安装ollama，DeepSseek-R1:32b的本地部署和运行

原创已于 2025-11-07 10:10:50 修改 · 5.7k 阅读

22 ·

CC 4.0 BY-SA版权

文章标签：

#大模型

于 2025-02-07 21:56:22 首次发布

大模型专栏收录该内容

10 篇文章

订阅专栏

1 ollama 的安装与设置

ollama官网链接：https://ollama.com/

在左上角的【Models】中展示了ollama支持的模型
在正中间的【Download】中课可以下载支持平台中的安装包。

其安装和模型路径配置操作流程如下：
ollama的安装
这里选择命令安装
curl -fsSL https://ollama.com/install.sh | sh
正确安装后，查看安装的ollama版本
ollama --version
若顺利安装，则跳过这段。
这里因为网络问题，会较难成功安装。然后可以先手动下在安装包，然后再进行安装。具体操作如下：
mkdir ollama & cd ollama
curl -fsSL https://ollama.com/install.sh -o ollama_install.sh
sh ollama_install.sh
然后会看到在如下位置，无限时间的下载，

于是在文件ollama_install.sh中搜索【Downloadding Linux】
然后重新运行
sh ollama_install.sh
会看到打印结果如下，然后手动将链接的包进行下载。结束后将下载的 ollama-linux-amd64.tgz 移动至当前目录下，也就是一开始创建的【ollama路径】，
修改 ollama_install.sh 文件内容，注释掉下载命令，并调整后一条的解压命令，具体如下
$SUDO tar -xzf ollama-linux-amd64.tgz -C "$OLLAMA_INSTALL_DIR"
然后重新运行
sh ollama_install.sh
即可顺利安装。

启动ollama服务
ollama serve
若报端口被占用，则查看端口的使用情况
sudo lsof -i :11434
下载模型默认路径的修改（可选，推荐）
正常来说，就可以下载和运行模型了。但大模型一般来说比较大，最好将模型下载默认路径设置在挂载的数据盘上。默认情况下，ollama模型的存储目录为 /usr/share/ollama/.ollama/models。
修改默认路径的操作如下：
创建路径并修改权限
# 这里设置路径为 /opt/ai-platform/lldataset/ollama/
sudo mkdir /opt/ai-platform/lldataset/ollama/
sudo chmod -R 777 /opt/ai-platform/lldataset/ollama/
停止服务并修改配置文件
sudo systemctl stop ollama
sudo nano /etc/systemd/system/ollama.service
打开文件后，添加内容
Environment="OLLAMA_MODELS=/opt/ai-platform/lldataset/ollama/"
Environment="OLLAMA_HOST=0.0.0.0:11434"

# 按下 Ctrl + O 保存文件。
# 按下 Enter 确认保存。
# 按下 Ctrl + X 退出编辑器。
这里注意【127.0.0.1:11434】和【0.0.0.0:11434】的区别：
【127.0.0.1】：本地回环（loopback），只能本机自己访问，外部（包括 Docker 容器、局域网别的电脑）根本路由不到。
【0.0.0.0】：通配地址，“本机所有网卡”的统称；监听它 = 同时监听
127.0.0.1 + 172.17.0.1(docker0) + 192.168.x.x(LAN) + …
启动ollama并查看其状态
sudo systemctl daemon-reload
sudo systemctl restart ollama.service

sudo systemctl status ollama.service
若正确启动则如下图

2 ollama运行大模型

ollama下载和运行大模型跟简单，即ollama run <模型名称>。若未下载，则先下载再运行；若已下载，则试接运行。
实际使用中，需要根据自己设备资源支持，去下载某个大模型的某个版本。以deepseek-r1为例，具体操作为：
搜索栏中搜索【deepseek-r1】
根据自己服务器的显存大小，选择合适的模型版本。复制命令
ollama run deepseek-r1:32b
拉取成功后即可进行问答。从deepseek回答的think中，能看出它是个讨好型的大模型…

3 python代码中调用ollama部署的模型
from openai import OpenAI
# 配置客户端连接到本地的Ollama服务
client = OpenAI(
    base_url='http://localhost:11434/v1',
    api_key='ollama'  # Ollama不需要真实的API密钥，但需要提供值
)
# 调用DeepSeek模型
response = client.chat.completions.create(
       model='deepseek-r1:32b',  # 替换为你的实际模型名称
       messages=[
           {'role': 'system', 'content': '你是一个有帮助的AI助手。'},
           {'role': 'user', 'content': '请用Python写一个二分查找算法。'}
       ],
    stream=False,
    temperature=0.7,
    max_tokens=1000
)
print(response.choices[0].message.content)
目前遇到的情况是：虽然调用DeepSeek时模型会加载到显存，但闲置约5分钟后系统就会自动释放资源。在实际使用频率不高的场景下，每次推理都需要重新加载模型，导致等待时间较长。为了提升响应速度，需要让模型能常驻显存。

Ollama 目前没有纯加载端点，想挂住模型必须走 /api/generate（或 /api/chat）并带 keep_alive:-1；空 prompt 是最轻量的实现方式。
立即加载并常驻（空 prompt 法）
curl http://localhost:11434/api/generate \
  -d '{"model":"qwen3:14b","prompt":" ","keep_alive":-1,"stream":false}'
prompt 给单个空格，推理成本几乎为零；
stream:false 让返回一次性完成；
显存会立刻上涨，且 expires_at 变成 "0001-01-01T00:00:00Z"（永久）。
验证是否已驻留
curl http://localhost:11434/api/ps
若看到 qwen3:14b 条目即成功。
手动卸载
ollama stop qwen3:14b

4 交互界面 ChatBox

服务器上部署好了deepseek，然后在同局域网下的本机，可安装windows版本的chatbox，进行界面中的问答。chatbox的下载链接 https://chatboxai.app/zh。下载windows平台下的应用，双击安装。

左下角的【设置】
【模型提供方】选择【OLLAMA API】。
【模型】中会出现服务器中ollama已经拉取的模型列表。选择想要使用的模型。
点击【保存】
点击左下角的【新对话】，然后就可以进行大模型问答

5 DeepSeek-R1-Distill-Qwen-32B的简单介绍

【DeepSeek R1】

是一款拥有 6710 亿参数的大型混合专家（MoE）模型。通过强化学习（RL）和监督微调（SFT）相结合的方式训练，DeepSeek R1 的推理能力得到了显著提升。

【DeepSeek-R1-Distill-Qwen-32B】
通过将 DeepSeek R1 的推理模式蒸馏到更小的模型中，实现了更高效的性能。在该模型中

DeepSeek 和 Qwen 的关系是基于知识蒸馏的师生关系：

DeepSeek-R1 是教师模型：它是一个经过大规模强化学习训练的强大推理模型，具有复杂的结构和庞大的参数量。DeepSeek-R1 在数学、编程、逻辑推理等任务上表现出色，能够生成高质量的预测结果。
Qwen-32B 是学生模型：它是一个参数量较小的模型，通过学习 DeepSeek-R1 的输出来提升自己的推理能力。在蒸馏过程中，DeepSeek-R1 生成的推理轨迹和预测结果被用作“教学材料”，Qwen-32B 通过模仿这些输出来学习。

蒸馏过程

数据生成：DeepSeek-R1 生成了 800K 条高质量的推理数据，这些数据包括数学、编程、逻辑推理等任务。这些数据被用作蒸馏过程中的“教学材料”。
训练过程：Qwen-32B 作为学生模型，输入这些数据并尝试生成与 DeepSeek-R1 相似的推理轨迹和预测结果。通过监督微调（SFT），Qwen-32B 的参数不断优化，使其输出逐渐逼近 DeepSeek-R1。
性能提升：经过蒸馏的 Qwen-32B 在多个基准测试中表现出色，例如在 AIME 2024 上得分 72.6%，在 MATH-500 上得分 94.3%，在 LiveCodeBench 上得分 57.2%。这些结果显著优于直接在 Qwen-32B 上进行强化学习的结果。

通过这种知识蒸馏的方式，DeepSeek-R1 的推理能力被高效地迁移到了 Qwen-32B 中，使得 Qwen-32B 在推理任务上能够达到与 DeepSeek-R1 相当的性能。