使用Shell脚本实现多GPU上的Ollama模型自动部署

老大白菜

已于 2025-05-31 09:33:29 修改

阅读量458

点赞数 3

CC 4.0 BY-SA版权

分类专栏：机器学习人工智能文章标签： chrome ollama

于 2025-05-31 09:30:44 首次发布

本文链接：https://blog.youkuaiyun.com/hzether/article/details/148349245

机器学习同时被 2 个专栏收录

40 篇文章

订阅专栏

人工智能

28 篇文章

订阅专栏

使用Shell脚本实现多GPU上的Ollama模型自动部署

在这里插入图片描述

在大规模AI应用场景中，我们经常需要在多个GPU上同时部署不同的语言模型。本文将介绍一个自动化部署脚本，用于在多个GPU上高效部署和管理Ollama模型。

功能特点

自动停止已运行的Ollama服务
支持多GPU并行部署
自定义显存分配
独立端口配置
自动日志管理
模型预热机制

脚本实现

基础配置

首先，我们定义了基本的运行参数：

# 指定使用的最后三块显卡 (GPU 5,6,7)
GPUS=(5 6 7)
PORTS=(11435 11436 11437)

模型配置

脚本支持三个不同的模型，每个都有特定的用途：

declare -A MODELS=(
    ["emotion"]="qwen:7b"
    ["main"]="ALIENTELLIGENCE/psychologistv2:latest"
    ["crisis"]="ALIENTELLIGENCE/mindpal:latest"
)

declare -A GPU_MEM=(
    ["emotion"]=10000
    ["main"]=10000
    ["crisis"]=9000
)

部署流程

环境准备
- 停止现有Ollama服务
- 创建日志目录
资源分配
- 为每个模型分配专用GPU
- 配置独立端口
- 设置显存限制
服务启动
- 设置环境变量
- 启动Ollama服务
- 模型预热
- 日志重定向

监控和测试

监控命令

watch -n 1 nvidia-smi
tail -f ~/ollama_logs/*.log

API测试

每个模型都可以通过其专用端口访问：

# 情感分析模型测试
curl http://localhost:11435/api/generate -d '{"model": "qwen:7b", "prompt":"Hello"}'

# 主模型测试
curl http://localhost:11436/api/generate -d '{"model": "ALIENTELLIGENCE/psychologistv2:latest", "prompt":"Hello"}'

# 危机处理模型测试
curl http://localhost:11437/api/generate -d '{"model": "ALIENTELLIGENCE/mindpal:latest", "prompt":"Hello"}'

shell

#!/bin/bash
# run_models_on_last_gpus.sh

# 停止所有可能运行的 ollama 服务
pkill -f "ollama serve"

# 创建日志目录
mkdir -p ~/ollama_logs

# 指定使用的最后三块显卡 (GPU 5,6,7)
GPUS=(5 6 7)
PORTS=(11435 11436 11437)

# 模型配置
declare -A MODELS=(
    ["emotion"]="qwen:7b"
    ["main"]="ALIENTELLIGENCE/psychologistv2:latest"
    ["crisis"]="ALIENTELLIGENCE/mindpal:latest"
)

# 显存分配 (单位MB)
declare -A GPU_MEM=(
    ["emotion"]=10000
    ["main"]=10000
    ["crisis"]=9000
)

# 启动计数器
COUNT=0

# 循环启动模型
for MODEL_NAME in "${!MODELS[@]}"; do
    GPU_ID=${GPUS[$COUNT]}
    PORT=${PORTS[$COUNT]}
    MODEL=${MODELS[$MODEL_NAME]}
    MEM=${GPU_MEM[$MODEL_NAME]}

    echo "启动 $MODEL_NAME 模型 (GPU $GPU_ID, 端口 $PORT, 显存 ${MEM}MB)..."

    # 设置环境变量
    export CUDA_VISIBLE_DEVICES=$GPU_ID
    export OLLAMA_HOST="0.0.0.0:$PORT"
    export OLLAMA_NUM_GPU=1

    # 启动服务
    nohup ollama serve > ~/ollama_logs/${MODEL_NAME}.log 2>&1 &

    # 等待服务初始化
    sleep 15

    # 运行模型并预热显存
    ollama run $MODEL >/dev/null 2>&1 &

    # 显示启动信息
    echo "  -> $MODEL_NAME 模型已部署在 GPU $GPU_ID (端口 $PORT)"
    echo "  -> 日志文件: ~/ollama_logs/${MODEL_NAME}.log"
    echo "  -> 显存分配: ${MEM}MB"

    # 增加计数器
    ((COUNT++))
done

echo -e "\n所有模型已启动！"
echo "使用的显卡: GPU ${GPUS[0]}, ${GPUS[1]}, ${GPUS[2]}"
echo "监控命令:"
echo "  watch -n 1 nvidia-smi"
echo "  tail -f ~/ollama_logs/*.log"
echo "测试命令:"
echo "  curl http://localhost:11435/api/generate -d '{\"model\": \"qwen:7b\", \"prompt\":\"Hello\"}'"
echo "  curl http://localhost:11436/api/generate -d '{\"model\": \"ALIENTELLIGENCE/psychologistv2:latest\", \"prompt\":\"Hello\"}'"
echo "  curl http://localhost:11437/api/generate -d '{\"model\": \"ALIENTELLIGENCE/mindpal:latest\", \"prompt\":\"Hello\"}'"