如何搭建一个属于自己的 Qwen 大模型

置顶 showyoui

于 2025-08-06 06:30:00 发布

阅读量1.2k

点赞数 44

CC 4.0 BY-SA版权

分类专栏： AI 系列文章标签： ai ollama qwen3

本文链接：https://blog.youkuaiyun.com/showyoui/article/details/149878947

AI 系列专栏收录该内容

13 篇文章

订阅专栏

在本地部署大语言模型已经成为开发者、研究人员和技术爱好者的热门选择。Ollama 作为一个轻量级的本地大模型运行框架，提供了简单易用的方式来运行各种开源模型。这篇博客将详细介绍我是如何在 Ubuntu 20.04 系统上安装 Ollama，并运行 qwen3:30b-a3b-q4_K_M 模型。

系统环境

操作系统: Ubuntu 20.04 LTS
内存: 32GB RAM
CPU: 12 核心处理器
存储: 建议至少 50GB 可用空间

安装 Ollama

1. 下载并安装 Ollama

Ollama 提供了多种安装方式，推荐使用官方的一键安装脚本：

curl -fsSL https://ollama.com/install.sh | sh

这个脚本会自动检测系统架构，下载适合的二进制文件，并设置必要的权限。
但是我尝试了多次，都是下载到一半的时候，断开链接了，我只能通过另一种方式安装 ollama

curl -LO https://ollama.com/download/ollama-linux-amd64.tgz
sudo tar -C /usr -xzf ollama-linux-amd64.tgz
sudo useradd -r -s /bin/false -U -m -d /usr/share/ollama ollama
sudo usermod -a -G ollama $(whoami)
sudo tee /etc/systemd/system/ollama.service > /dev/null << 'EOF'
[Unit]
Description=Ollama Service
After=network-online.target

[Service]
ExecStart=/usr/bin/ollama serve
User=ollama
Group=ollama
Restart=always
RestartSec=3
Environment="PATH=$PATH"

[Install]
WantedBy=multi-user.target
EOF
# 设置开机自启动，并启动 ollama 服务
systemctl enable ollama
systemctl start ollama

2. 验证安装

安装完成后，验证 Ollama 是否正确安装：

ollama --version

输出如下，表面成功，版本可能不同：

ollama version is 0.9.6

服务默认运行在 http://localhost:11434。

下载并运行 qwen3:30b-a3b-q4_K_M 模型

1. 拉取模型

qwen3:30b-a3b-q4_K_M 是一个经过量化的 Qwen 3 30B 模型，文件大小约为 18GB。使用以下命令下载：

ollama pull qwen3:30b-a3b-q4_K_M

注意：由于模型文件较大，下载时间取决于网络速度，可能需要 30 分钟到数小时不等。

2. 验证模型下载

检查模型是否成功下载：

ollama list

输出大模型列表：

NAME                    ID              SIZE     MODIFIED
qwen3:30b-a3b-q4_K_M    0b28110b7a33    18 GB    2 days ago

3. 运行模型

启动模型进行对话：

ollama run qwen3:30b-a3b-q4_K_M

首次运行时会进行模型加载，这可能需要几分钟时间，具体取决于系统性能。

性能优化建议

1. 内存管理

32GB 内存对于运行 30B 模型是足够的，但建议：

关闭不必要的应用程序
监控内存使用情况：free -h
考虑设置 swap 空间（如果尚未设置）

2. CPU 优化

确保系统有足够的散热
监控 CPU 使用率：htop 或 top
考虑调整进程优先级

3. 存储优化

确保有足够的磁盘空间
使用 SSD 存储以获得更好的 I/O 性能
定期清理不需要的模型文件

使用示例

基本对话

启动后，可以直接输入问题进行对话：

>>> 帮我写一个 Go 函数来计算斐波那契数列

输出太长，这里只截取后半部分：
在这里插入图片描述

API 调用

Ollama 也支持通过 HTTP API 调用：

curl http://localhost:11434/api/chat -d '{
  "model": "qwen3:30b-a3b-q4_K_M",
  "messages": [
    {
      "role": "user",
      "content": "Who are you?"
    }
  ],
  "stream": false
 }'

输出：
在这里插入图片描述

常见问题解决

1. 内存不足

如果遇到内存不足的问题：

# 检查内存使用
free -h

# 清理系统缓存
sudo sync && echo 3 | sudo tee /proc/sys/vm/drop_caches

2. 模型下载失败

如果模型下载中断或失败：

# 重新下载模型
ollama pull qwen2.5:30b

# 或者删除损坏的模型文件后重新下载
ollama rm qwen2.5:30b
ollama pull qwen2.5:30b

3. 服务启动失败

如果 Ollama 服务无法启动：

# 检查服务状态
sudo systemctl status ollama

# 重启服务
sudo systemctl restart ollama

# 查看日志
sudo journalctl -u ollama -f

总结

通过以上步骤，我们成功在 Ubuntu 20.04 系统上安装了 Ollama 并运行了 qwen3:30b-a3b-q4_K_M 模型。这个设置提供了一个强大的本地大语言模型环境，可以用于开发、研究和学习目的。

关键要点：

系统要求: 32GB 内存和 12 核心 CPU 为运行 30B 模型提供了良好的基础
安装简单: Ollama 的一键安装脚本简化了部署过程
灵活使用: 支持命令行交互和 API 调用两种方式

随着本地大模型技术的不断发展，Ollama 将继续为开发者提供更强大、更易用的本地 AI 解决方案。

注意：大模型在思考的过程中，会导致 CPU 和 Memory 使用量飙升。如果你也想在本地部署一个开源大模型，请提前选择好适合本地服务器配置的大模型。
在这里插入图片描述