通义千问QvQ-72B-Preview模型部署

准备工作

模型下载

相关链接

中文blog
Modelscope开源地址
Modelscope创空间体验
HuggingFace开源地址
HuggingFace Space体验

模型效果

官方数据
在这里插入图片描述

下载模型

本次实验在4090上进行测试,为了顺利加载模型,下载的是量化版本的模型。模型结构如下:
在这里插入图片描述

环境准备

conda activate qvq
pip install transformers
pip install qwen-vl-utils
pip install vllm

模型部署

部署代码

这里使用vllm进行部署,用到4张4090

CUDA_VISIBLE_DEVICES=4,5,6,7 python -m vllm.entrypoints.openai.api_server --host 0.0.0.0 --port 8009 --max-model-len 12000 --model /model/QVQ-72B-Preview-AWQ --quantization awq --kv-cache-dtype fp8 --served-model-name qwenqvq --gpu-memory-utilization 0.95 --tensor-parallel-size 4 --enforce-eager --disable-log-requests --swap-space 16

成功加载模型
在这里插入图片描述

测试模型

标准测试代码

from openai import OpenAI
def get_test_report_qianwen(text):
    openai_api_key = "EMPTY"
    openai_api_base = "http://xxx.xxx.xxx.xxx:8009/v1"

    client = OpenAI(
        api_key=openai_api_key,
        base_url=openai_api_base,
    )

    chat_response = client.chat.completions.create(
        model="qwen",
        messages=[
            {"role": "system", "content": "You are a helpful assistant."},
            {"role": "user", "content": text},
        ]
    )
    return chat_response.choices[0].message.content

调用测试代码

text = "How many r in strawberry"
print(get_test_report_qianwen(text))

模型输出,可以看到完整的思考过程
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

gxls2024

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值