通义千问QvQ-72B-Preview模型部署

部署运行你感兴趣的模型镜像

准备工作

模型下载

相关链接

中文blog
Modelscope开源地址
Modelscope创空间体验
HuggingFace开源地址
HuggingFace Space体验

模型效果

官方数据
在这里插入图片描述

下载模型

本次实验在4090上进行测试,为了顺利加载模型,下载的是量化版本的模型。模型结构如下:
在这里插入图片描述

环境准备

conda activate qvq
pip install transformers
pip install qwen-vl-utils
pip install vllm

模型部署

部署代码

这里使用vllm进行部署,用到4张4090

CUDA_VISIBLE_DEVICES=4,5,6,7 python -m vllm.entrypoints.openai.api_server --host 0.0.0.0 --port 8009 --max-model-len 12000 --model /model/QVQ-72B-Preview-AWQ --quantization awq --kv-cache-dtype fp8 --served-model-name qwenqvq --gpu-memory-utilization 0.95 --tensor-parallel-size 4 --enforce-eager --disable-log-requests --swap-space 16

成功加载模型
在这里插入图片描述

测试模型

标准测试代码

from openai import OpenAI
def get_test_report_qianwen(text):
    openai_api_key = "EMPTY"
    openai_api_base = "http://xxx.xxx.xxx.xxx:8009/v1"

    client = OpenAI(
        api_key=openai_api_key,
        base_url=openai_api_base,
    )

    chat_response = client.chat.completions.create(
        model="qwen",
        messages=[
            {"role": "system", "content": "You are a helpful assistant."},
            {"role": "user", "content": text},
        ]
    )
    return chat_response.choices[0].message.content

调用测试代码

text = "How many r in strawberry"
print(get_test_report_qianwen(text))

模型输出,可以看到完整的思考过程
在这里插入图片描述

您可能感兴趣的与本文相关的镜像

Vllm-v0.11.0

Vllm-v0.11.0

Vllm

vLLM是伯克利大学LMSYS组织开源的大语言模型高速推理框架,旨在极大地提升实时场景下的语言模型服务的吞吐与内存使用效率。vLLM是一个快速且易于使用的库,用于 LLM 推理和服务,可以和HuggingFace 无缝集成。vLLM利用了全新的注意力算法「PagedAttention」,有效地管理注意力键和值

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

gxls2024

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值