通义千问QvQ-72B-Preview模型部署

gxls2024

已于 2025-01-03 10:14:02 修改

阅读量2.1k

点赞数 31

CC 4.0 BY-SA版权

分类专栏：大模型文章标签：深度学习自然语言处理人工智能语言模型 python

于 2024-12-30 17:21:11 首次发布

本文链接：https://blog.youkuaiyun.com/sysu63/article/details/144829145

大模型专栏收录该内容

1 篇文章

订阅专栏

通义千问QwQ-72B-Preview模型部署

准备工作
- 模型下载
模型部署
- 部署代码
- 测试模型

准备工作

模型下载

模型效果

官方数据
在这里插入图片描述

下载模型

本次实验在4090上进行测试，为了顺利加载模型，下载的是量化版本的模型。模型结构如下：
在这里插入图片描述

环境准备

conda activate qvq
pip install transformers
pip install qwen-vl-utils
pip install vllm

模型部署

部署代码

这里使用vllm进行部署，用到4张4090

CUDA_VISIBLE_DEVICES=4,5,6,7 python -m vllm.entrypoints.openai.api_server --host 0.0.0.0 --port 8009 --max-model-len 12000 --model /model/QVQ-72B-Preview-AWQ --quantization awq --kv-cache-dtype fp8 --served-model-name qwenqvq --gpu-memory-utilization 0.95 --tensor-parallel-size 4 --enforce-eager --disable-log-requests --swap-space 16

成功加载模型
在这里插入图片描述

测试模型

标准测试代码

from openai import OpenAI
def get_test_report_qianwen(text):
    openai_api_key = "EMPTY"
    openai_api_base = "http://xxx.xxx.xxx.xxx:8009/v1"

    client = OpenAI(
        api_key=openai_api_key,
        base_url=openai_api_base,
    )

    chat_response = client.chat.completions.create(
        model="qwen",
        messages=[
            {"role": "system", "content": "You are a helpful assistant."},
            {"role": "user", "content": text},
        ]
    )
    return chat_response.choices[0].message.content

调用测试代码

text = "How many r in strawberry"
print(get_test_report_qianwen(text))

模型输出，可以看到完整的思考过程
在这里插入图片描述