文章目录
在本地部署大语言模型已经成为开发者、研究人员和技术爱好者的热门选择。Ollama 作为一个轻量级的本地大模型运行框架,提供了简单易用的方式来运行各种开源模型。这篇博客将详细介绍我是如何在 Ubuntu 20.04 系统上安装 Ollama,并运行 qwen3:30b-a3b-q4_K_M 模型。
系统环境
- 操作系统: Ubuntu 20.04 LTS
- 内存: 32GB RAM
- CPU: 12 核心处理器
- 存储: 建议至少 50GB 可用空间
安装 Ollama
1. 下载并安装 Ollama
Ollama 提供了多种安装方式,推荐使用官方的一键安装脚本:
curl -fsSL https://ollama.com/install.sh | sh
这个脚本会自动检测系统架构,下载适合的二进制文件,并设置必要的权限。
但是我尝试了多次,都是下载到一半的时候,断开链接了,我只能通过另一种方式安装 ollama
curl -LO https://ollama.com/download/ollama-linux-amd64.tgz
sudo tar -C /usr -xzf ollama-linux-amd64.tgz
sudo useradd -r -s /bin/false -U -m -d /usr/share/ollama ollama
sudo usermod -a -G ollama $(whoami)
sudo tee /etc/systemd/system/ollama.service > /dev/null << 'EOF'
[Unit]
Description=Ollama Service
After=network-online.target
[Service]
ExecStart=/usr/bin/ollama serve
User=ollama
Group=ollama
Restart=always
RestartSec=3
Environment="PATH=$PATH"
[Install]
WantedBy=multi-user.target
EOF
# 设置开机自启动,并启动 ollama 服务
systemctl enable ollama
systemctl start ollama
2. 验证安装
安装完成后,验证 Ollama 是否正确安装:
ollama --version
输出如下,表面成功,版本可能不同:
ollama version is 0.9.6
服务默认运行在 http://localhost:11434
。
下载并运行 qwen3:30b-a3b-q4_K_M 模型
1. 拉取模型
qwen3:30b-a3b-q4_K_M 是一个经过量化的 Qwen 3 30B 模型,文件大小约为 18GB。使用以下命令下载:
ollama pull qwen3:30b-a3b-q4_K_M
注意:由于模型文件较大,下载时间取决于网络速度,可能需要 30 分钟到数小时不等。
2. 验证模型下载
检查模型是否成功下载:
ollama list
输出大模型列表:
NAME ID SIZE MODIFIED
qwen3:30b-a3b-q4_K_M 0b28110b7a33 18 GB 2 days ago
3. 运行模型
启动模型进行对话:
ollama run qwen3:30b-a3b-q4_K_M
首次运行时会进行模型加载,这可能需要几分钟时间,具体取决于系统性能。
性能优化建议
1. 内存管理
32GB 内存对于运行 30B 模型是足够的,但建议:
- 关闭不必要的应用程序
- 监控内存使用情况:
free -h
- 考虑设置 swap 空间(如果尚未设置)
2. CPU 优化
- 确保系统有足够的散热
- 监控 CPU 使用率:
htop
或top
- 考虑调整进程优先级
3. 存储优化
- 确保有足够的磁盘空间
- 使用 SSD 存储以获得更好的 I/O 性能
- 定期清理不需要的模型文件
使用示例
基本对话
启动后,可以直接输入问题进行对话:
>>> 帮我写一个 Go 函数来计算斐波那契数列
输出太长,这里只截取后半部分:
API 调用
Ollama 也支持通过 HTTP API 调用:
curl http://localhost:11434/api/chat -d '{
"model": "qwen3:30b-a3b-q4_K_M",
"messages": [
{
"role": "user",
"content": "Who are you?"
}
],
"stream": false
}'
输出:
常见问题解决
1. 内存不足
如果遇到内存不足的问题:
# 检查内存使用
free -h
# 清理系统缓存
sudo sync && echo 3 | sudo tee /proc/sys/vm/drop_caches
2. 模型下载失败
如果模型下载中断或失败:
# 重新下载模型
ollama pull qwen2.5:30b
# 或者删除损坏的模型文件后重新下载
ollama rm qwen2.5:30b
ollama pull qwen2.5:30b
3. 服务启动失败
如果 Ollama 服务无法启动:
# 检查服务状态
sudo systemctl status ollama
# 重启服务
sudo systemctl restart ollama
# 查看日志
sudo journalctl -u ollama -f
总结
通过以上步骤,我们成功在 Ubuntu 20.04 系统上安装了 Ollama 并运行了 qwen3:30b-a3b-q4_K_M 模型。这个设置提供了一个强大的本地大语言模型环境,可以用于开发、研究和学习目的。
关键要点:
- 系统要求: 32GB 内存和 12 核心 CPU 为运行 30B 模型提供了良好的基础
- 安装简单: Ollama 的一键安装脚本简化了部署过程
- 灵活使用: 支持命令行交互和 API 调用两种方式
随着本地大模型技术的不断发展,Ollama 将继续为开发者提供更强大、更易用的本地 AI 解决方案。
注意:大模型在思考的过程中,会导致 CPU 和 Memory 使用量飙升。如果你也想在本地部署一个开源大模型,请提前选择好适合本地服务器配置的大模型。