V100 部署qwen2.5-vl

最新推荐文章于 2025-11-22 20:13:36 发布

原创最新推荐文章于 2025-11-22 20:13:36 发布 · 251 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#eureka #云原生

使用镜像部署llama.cpp

Docker images: ghcr.io/ggml-org/llama.cpp:server-cuda
https://github.com/ggml-org/llama.cpp/blob/master/docs/build.md

下载模型文件：

40地址：/home/migu/cdm/project/deepseek-r1/llm
地址：https://huggingface.co/samgreen/Qwen2.5-VL-32B-Instruct-GGUF/tree/main
在这里插入图片描述

然后进行docker compose 配置：

40地址：/home/migu/cdm/project/deepseek-r1/docker-compose.yml

services:
  xinference:
    # 使用指定版本的 GPU 镜像
    image: ghcr.io/ggml-org/llama.cpp:server-cuda
    # 容器名称（方便管理）
    container_name: llama
    # 重启策略：除非手动停止，否则总是重启
    restart: unless-stopped
    # GPU 配置（关键：允许容器访问 NVIDIA 显卡）
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all  # 使用所有可用 GPU（也可指定数量，如 count: 1）
              capabilities: [gpu]
    # 端口映射：本地端口:容器端口（保持与之前一致）
    ports:
      - "8002:8000"
    # 数据卷挂载：持久化存储模型和配置
    volumes:
      - ./llm:/llm
    # 环境变量配置
    environment:
      - LOG_LEVEL=INFO  # 日志级别
    # 容器启动命令（与直接运行 Docker 时一致）
    command: -m /llm/Qwen25-VL-32B-Instruct-Q4_K_M.gguf --alias Qwen2.5-VL-32B-Instruct-awq --mmproj /llm/qwen2.5-vl-32b-instruct-vision-f16.gguf --port 8000 --host 0.0.0.0 -n 5120
    # docker run -v ./llm:/llm -p 8000:8000 ghcr.io/ggml-org/llama.cpp:server-cuda -m /llm/Qwen25-VL-32B-Instruct-Q4_K_M.gguf --mmproj /llm/qwen2.5-vl-32b-instruct-vision-f16.gguf --port 8000 --host 0.0.0.0 -n 512