搭建 Qwen2-VL 接口

搭建 Qwen2-VL 接口


Qwen2-VL 是一个多模态大模型,支持视觉和语言的理解与生成任务。它结合了视觉(Vision)和语言(Language)的能力,能够处理图像和文本的联合输入,并生成高质量的文本输出

1. 创建 qwen-vl 虚拟环境

使用 conda 创建一个名为 qwen-vl 的虚拟环境,并指定 Python 版本为 3.10。

conda create -n qwen-vl python=3.10

创建完成后,激活虚拟环境:

conda activate qwen-vl

2. 安装 PyTorch

安装 PyTorch 及其相关的库(torchvisiontorchaudio),并指定 CUDA 11.8 版本:

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

注意事项

  • 确保你的系统上安装了与 PyTorch 兼容的 CUDA 版本(本例中为 CUDA 11.8)。
  • 如果没有 GPU,可以省略 --index-url 参数,安装 CPU 版本的 PyTorch。

3. 安装 Python 依赖

安装项目所需的 Python 依赖包,使用清华大学的镜像源以加速下载:

pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
requirements.txt 内容
qwen-vl-utils[decord]==0.0.8
modelscope
accelerate>=0.26.0
bitsandbytes==0.45.2
Flask==2.2.2
Werkzeug==2.2.2
安装 transformers

由于 transformers 安装较慢,可以下载压缩包并手动安装:

  1. 解压 transformers-main.zip

    unzip dist/transformers-main.zip -d dist/
    
  2. 安装解压后的 transformers

    pip install dist/transformers-main/ -i https://pypi.tuna.tsinghua.edu.cn/simple
    

4. 下载模型文件

使用 modelscope 下载 Qwen2.5-VL-7B-Instruct 模型文件,并将其缓存到当前目录:

modelscope download --model Qwen/Qwen2.5-VL-7B-Instruct --cache_dir ./

注意事项

  • 下载的模型文件会存储在 --cache_dir 指定的目录中,确保路径正确。
  • 如果下载速度较慢,可以尝试使用代理或更换网络环境。

5. Qwen-VL API 接口

qwen-vl_app.py 代码

以下是完整的 API 接口代码:

from datetime import datetime
import os
import torch
import gc
from flask import Flask, request, jsonify
from PIL import Image
from transformers import Qwen2_5_VLForConditionalGeneration, AutoProcessor, BitsAndBytesConfig
from qwen_vl_utils import process_vision_info
from modelscope import snapshot_download

# 设置环境变量以避免内存碎片化
os.environ["PYTORCH_CUDA_ALLOC_CONF"] = "expandable_segments:True"

# 初始化 Flask 应用
app = Flask(__name__)

# 清理未使用的缓存
torch.cuda.empty_cache()

# 使用已经微调的预训练模型
model_dir = "Qwen/Qwen2.5-VL-7B-Instruct"

# 配置 4-bit 量化
bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4"
### 关于 Qwen2-VL 模型的使用说明 Qwen2-VL 是一种多模态大模型,能够处理图像和文本之间的复杂关系,适用于多种应用场景。以下是关于如何获取其使用文档以及配置的相关指导。 #### 获取 Qwen2-VL 的使用文档 目前,官方并未提供独立下载 Qwen2-VL 使用手册的方式,但可以通过访问官方网站或者相关开源平台来查找详细的教程和技术资料[^1]。通常情况下,这些资源会包括但不限于以下内容: - **安装指南**:描述了环境搭建的具体步骤,例如依赖库版本的选择、硬件设备的要求等。 - **API 接口定义**:列举了支持的功能列表及其对应的参数设置方法。 - **示例代码片段**:提供了实际操作中的 Python 脚本实例以便开发者快速上手。 对于希望深入研究该模型结构特性的用户来说,则可能需要查阅论文原文或者其他形式的技术白皮书[^2]。 #### 更新 Config 文件实现自定义调整 如果已经获得了预训练权重文件夹路径 `/data/model/qwen2-vl-7b-instruct/` ,那么编辑其中名为 `config.json` 的配置项便成为了一种常见的个性化定制手段之一 。通过命令行工具 Vim 打开此 JSON 格式的元数据存储位置后可根据项目需求修改相应字段值以适配特定任务场景下的表现优化目标 [^1]: ```bash vi /data/model/qwen2-vl-7b-instruct/config.json ``` 在此过程中需要注意保持原有层次逻辑不变的同时遵循 JSON 数据交换标准语法规范以免造成解析错误影响后续加载过程正常运行。 --- ### 提供一段简单的调用样例程序如下所示: 假设我们已经有了上述提到过的本地部署完毕后的环境中执行下面这段 python 测试脚本来验证基础功能是否可用: ```python from transformers import AutoTokenizer, AutoModelForVisionQA tokenizer = AutoTokenizer.from_pretrained("/data/model/qwen2-vl-7b-instruct/") model = AutoModelForVisionQA.from_pretrained("/data/model/qwen2-vl-7b-instruct/") image_path = "./example_image.jpg" text_question = "What is the color of this object?" inputs = tokenizer(text=text_question, images=image_path, return_tensors="pt") outputs = model(**inputs) print(outputs.logits.argmax(-1)) ``` 以上代码展示了基于 Hugging Face Transformers 库加载本地保存下来的 Qwen2-VL 权重并完成一次视觉问答预测的过程演示。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值