Qwen-VL 是阿里云研发的大规模视觉语言模型(Large Vision Language Model, LVLM)。Qwen-VL 可以以图像、文本、检测框作为输入,并以文本和检测框作为输出。

Qwen-VL-Chat = 大语言模型(Qwen-7B) + 视觉图片特征编码器(Openclip ViT-bigG) + 位置感知视觉语言适配器(可训练Adapter)+ 1.5B的图文数据 + 多轮训练 + 对齐机制(Chat)

Qwen-VL 系列模型的特点包括:
-
多语言对话模型:天然支持英文、中文等多语言对话,端到端支持图片里中英双语的长文本识别;
-
多图交错对话:支持多图输入和比较,指定图片问答,多图文学创作等;
-
开放域目标定位:通过中文开放域语言表达进行检测框标注;
-
细粒度识别和理解:448分辨率可以提升细粒度的文字识别、文档问答和检测框标注。
2. 硬件配置及部署要求
微调训练的显存占用及速度如下(BS=1),可根据显存大小调整Sequence Length参数
| Method | Speed (512 Sequence Length) | Mermory (512 Sequence Length) |
|---|---|---|
| LoRA (Base) | 2.4s/it | 37.3GB |
| LoRA (Chat) | 2.3s/it | 23.6GB |
| Q-LoRA | 4.5s/it | 17.2GB |
推理阶段的显存占用及速度如下
| Quantization | Speed (2048 tokens) | Mermory (2048 tokens) |
|---|---|---|
| BF16 | 28.87 | 22.60GB |
| Int4 | 37.79 | 11.82GB |
-
A100、H100、RTX3060、RTX3070等显卡建议启用bf16精度以节省显存
-
V100、P100、T4等显卡建议启用fp16精度以节省显存
-
使用CPU进行推理,需要约32GB内存,默认GPU进行推理,需要约24GB显存
软件环境配置
$ curl -O https://repo.anaconda.com/archive/Anaconda3-2019.03-Linux-x86_64.sh // 从官网下载安装脚本
$ bash Anaconda3-2019.03-Linux-x86_64.sh // 阅读协议确认安装,安装完成后再输入yes以便不需要手动将Anaconda添加到PATH
$ conda create -n qwen_vl python=3.10 // 安装虚拟环境, python 3.10及以上版本
$ conda activate qwen_vl // 激活虚拟环境

最低0.47元/天 解锁文章
1971

被折叠的 条评论
为什么被折叠?



