V100 部署qwen2.5-vl

使用镜像部署llama.cpp

Docker images: ghcr.io/ggml-org/llama.cpp:server-cuda
https://github.com/ggml-org/llama.cpp/blob/master/docs/build.md

下载模型文件:

40地址:/home/migu/cdm/project/deepseek-r1/llm
地址:https://huggingface.co/samgreen/Qwen2.5-VL-32B-Instruct-GGUF/tree/main
在这里插入图片描述

然后进行docker compose 配置:

40地址:/home/migu/cdm/project/deepseek-r1/docker-compose.yml

services:
  xinference:
    # 使用指定版本的 GPU 镜像
    image: ghcr.io/ggml-org/llama.cpp:server-cuda
    # 容器名称(方便管理)
    container_name: llama
    # 重启策略:除非手动停止,否则总是重启
    restart: unless-stopped
    # GPU 配置(关键:允许容器访问 NVIDIA 显卡)
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all  # 使用所有可用 GPU(也可指定数量,如 count: 1)
              capabilities: [gpu]
    # 端口映射:本地端口:容器端口(保持与之前一致)
    ports:
      - "8002:8000"
    # 数据卷挂载:持久化存储模型和配置
    volumes:
      - ./llm:/llm
    # 环境变量配置
    environment:
      - LOG_LEVEL=INFO  # 日志级别
    # 容器启动命令(与直接运行 Docker 时一致)
    command: -m /llm/Qwen25-VL-32B-Instruct-Q4_K_M.gguf --alias Qwen2.5-VL-32B-Instruct-awq --mmproj /llm/qwen2.5-vl-32b-instruct-vision-f16.gguf --port 8000 --host 0.0.0.0 -n 5120
    # docker run -v ./llm:/llm -p 8000:8000 ghcr.io/ggml-org/llama.cpp:server-cuda -m /llm/Qwen25-VL-32B-Instruct-Q4_K_M.gguf --mmproj /llm/qwen2.5-vl-32b-instruct-vision-f16.gguf --port 8000 --host 0.0.0.0 -n 512

启动
| Docker compose up

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

东哥aigc

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值