【多模态大模型教程】在自定义数据上使用Qwen-VL多模态大模型的微调与部署指南

最新推荐文章于 2025-12-06 11:52:08 发布

原创

最新推荐文章于 2025-12-06 11:52:08 发布 · 1.2k 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #chatgpt #自然语言处理 #prompt #AIGC

Qwen-VL 是阿里云研发的大规模视觉语言模型（Large Vision Language Model, LVLM）。Qwen-VL 可以以图像、文本、检测框作为输入，并以文本和检测框作为输出。

Qwen-VL-Chat = 大语言模型(Qwen-7B) + 视觉图片特征编码器(Openclip ViT-bigG) + 位置感知视觉语言适配器(可训练Adapter)+ 1.5B的图文数据 + 多轮训练 + 对齐机制(Chat)

Qwen-VL 系列模型的特点包括：

多语言对话模型：天然支持英文、中文等多语言对话，端到端支持图片里中英双语的长文本识别；
多图交错对话：支持多图输入和比较，指定图片问答，多图文学创作等；
开放域目标定位：通过中文开放域语言表达进行检测框标注；
细粒度识别和理解：448分辨率可以提升细粒度的文字识别、文档问答和检测框标注。

2. 硬件配置及部署要求

微调训练的显存占用及速度如下(BS=1)，可根据显存大小调整Sequence Length参数

Method	Speed (512 Sequence Length)	Mermory (512 Sequence Length)
LoRA (Base)	2.4s/it	37.3GB
LoRA (Chat)	2.3s/it	23.6GB
Q-LoRA	4.5s/it	17.2GB

推理阶段的显存占用及速度如下

Quantization	Speed (2048 tokens)	Mermory (2048 tokens)
BF16	28.87	22.60GB
Int4	37.79	11.82GB

A100、H100、RTX3060、RTX3070等显卡建议启用bf16精度以节省显存
V100、P100、T4等显卡建议启用fp16精度以节省显存
使用CPU进行推理，需要约32GB内存，默认GPU进行推理，需要约24GB显存

软件环境配置

$ curl -O https://repo.anaconda.com/archive/Anaconda3-2019.03-Linux-x86_64.sh   // 从官网下载安装脚本  
$ bash Anaconda3-2019.03-Linux-x86_64.sh           // 阅读协议确认安装，安装完成后再输入yes以便不需要手动将Anaconda添加到PATH  
$ conda create -n qwen_vl python=3.10            // 安装虚拟环境, python 3.10及以上版本  
$ conda activate qwen_vl                         // 激活虚拟环境