Qwen-VL系列多模态大模型技术演进-模型架构、训练方法、数据细节

最新推荐文章于 2025-10-09 12:16:32 发布

原创最新推荐文章于 2025-10-09 12:16:32 发布 · 2.5k 阅读

26 ·

CC 4.0 BY-SA版权

文章标签：

#架构 #人工智能 #transformer #深度学习 #自动驾驶 #机器学习

Qwen2.5B-VL-32B开源之际，记录一下Qwen-VL系列多模态大模型技术演进-模型架构、训练方法、数据细节，仅供参考。

系列模型的应用场景：

Qwen-VL：基础图像理解和对话。
Qwen2-VL：图像+短视频理解，代理任务。
Qwen2.5-VL：长视频、复杂文档解析、多语言支持，适用于更广泛的现实场景。

模型架构演进一览（其实差不多，模型侧有一些细节改动，系列更多还是数据上的增量训练）：

模型	大型语言模型 (LLM)	视觉编码器 (ViT)	视觉-语言连接机制	位置编码
Qwen-VL	Qwen-7B	ViT-bigG（OpenClip 初始化），固定分辨率 448×448	位置感知 VL Adapter（256 查询，交叉注意力）	2D 绝对位置编码
Qwen2-VL	Qwen2	ViT（DFN 初始化），动态分辨率支持，最大 16384 标记	MLP 压缩（2×2 token合并）	2D-RoPE + M-RoPE（多模态）
Qwen2.5-VL	Qwen2.5	重新设计 ViT，原生分辨率，窗口注意力，3D patch	MLP 压缩（4 patch 合并）	2D-RoPE + MRoPE（绝对时间）

一、Qwen-VL

模型架构

大型语言模型（LLM）：Qwen-7B
视觉编码器：采用Vision Transformer（ViT）架构，初始化权重来自OpenClip的ViT-bigG。
- 输入处理：输入图像被调整到特定分辨率，然后被分割成固定大小的patch。
- 特征提取：ViT通过自注意力机制来捕捉图像中的全局和局部信息，生成一组图像特征。
位置感知的视觉-语言适配器：为了缓解长图像特征序列带来的效率问题，Qwen-VL引入了一个视觉-语言适配器。这个适配器的作用是将图像特征序列压缩到一个固定长度（例如256），以便更好地与语言模型结合。
- 压缩机制：适配器包含一个单层交叉注意力模块，使用可学习的查询向量对图像特征进行压缩。
- 位置信息：为了保持位置信息的完整性，适配器在交叉注意力机制中使用2D绝对位置编码。
输入和输出

图像输入：图像通过视觉编码器和适配器处理后，生成固定长度的图像特征序列。为了区分图像特征输入和文本特征输入，特殊标记（< img> 和 < /img>）被添加到图像特征序列的开头和结尾。
边界框输入和输出：为了增强模型的细粒度视觉理解能力，Qwen-VL支持边界框输入和输出。边界框通过标准化和字符串格式化处理，使用特殊标记< box>组进行区分。

训练方法

训练过程分为三个阶段：两个预训练阶段和一个指令微调阶段。

阶段1 预训练

目标：利用大规模、弱标注的图像-文本对数据训练模型，优化视觉编码器和视觉-语言适配器，同时冻结大型语言模型。
数据集：从多个公开来源（如 LAION、DataComp、Coyo 等）和内部数据中收集 50 亿图像-文本对，清理后剩 14 亿（英语 77.3%，中文 22.7%）。数据清理后保留率 28%，数据集细节如下：

训练细节：
- 输入图像分辨率：。
- 训练目标：最小化文本标记的交叉熵。
- 超参数：最大学习率，批量大小 30720，训练 50,000 步，处理约 15 亿样本。

阶段2 多任务预训练

目标：引入高质量、细粒度标注数据，提升模型的多任务能力，解锁并训练整体模型。
数据集：涵盖 7 个任务（说明、VQA、对齐、引用对齐、接地说明、OCR、纯文本自回归），数据来源包括 GRIT、Visual Genome、RefCOCO 等，以及内部数据和合成 OCR 数据，总计约 77M 样本。
训练数据格式：
训练细节：
- 视觉编码器分辨率提升至，移除窗口和全局注意力机制。
- 数据格式：交错图像-文本序列，长度 2048。
- 训练目标与预训练阶段一致。
改进：更高的分辨率减少信息丢失，任务多样性增强模型能力。

阶段3 SFT

目标：通过指令微调提升 Qwen-VL 的指令遵循和对话能力，生成 Qwen-VL-Chat。
数据集：使用 350k 指令调整数据，包括 LLM 自生成的图像说明/对话数据、手动标注和模型生成的定位/多图像理解数据，以及多模态和纯文本对话数据的混合。
训练数据格式：
训练细节：冻结视觉编码器，仅优化语言模型和适配器。
结果：模型有效迁移定位和多图像理解能力至多种语言和问题类型，同时保持对话通用性。

超参数细节

三阶段训练超参数细节

二、Qwen2-VL

Qwen2-VL总体沿用了

模型架构

1. 视觉编码器：

沿用qwen-vl的形式视觉编码器ViT，但有如下几点改进：

动态分辨率支持：Qwen2-VL引入了“Naive Dynamic Resolution”机制，允许模型动态地将不同分辨率的图像转换为不同数量的视觉tokens。这种灵活性使得模型能够更有效地处理各种分辨率的图像，而不会损失细节信息。
2D-RoPE：为了更好地捕捉图像的空间信息，Qwen2-VL在ViT中引入了二维旋转位置嵌入（2D-RoPE）。传统的RoPE用于一维序列，而2D-RoPE则扩展到二维空间，能够同时捕捉图像的高度和宽度信息。
压缩机制：在推理阶段，Qwen2-VL使用一个简单的多层感知机（MLP）层来压缩相邻的2x2token为一个token，以减少每个图像的视觉token数量。有助于减少计算负担，同时保持模型的性能。

2. 多模态旋转位置嵌入（M-RoPE）

M-RoPE是Qwen2-VL的创新点，用于建模多模态输入的位置信息。传统的RoPE仅限于一维序列，而M-RoPE则扩展到多模态输入。实现方式如下：

分解位置嵌入：M-RoPE将原始的旋转嵌入分解为三个组件：时间、高度和宽度。对于文本输入，这三个组件使用相同的位置ID，使其功能上等同于1D-RoPE。
多模态应用：在处理图像时，时间ID保持不变，而高度和宽度组件根据标记在图像中的位置分配不同的ID。对于视频，时间ID随着每一帧的增加而递增，而高度和宽度组件的ID分配模式与图像相同。

3. 统一的图像和视频理解

Qwen2-VL采用混合训练方法，结合图像和视频数据进行训练，以确保模型在图像理解和视频理解方面的能力。训练策略如下：

视频采样：为了尽可能完整地保留视频信息，Qwen2-VL每秒采样两帧视频。此外，使用3D卷积来处理视频输入，允许模型处理3D管状结构而不是2D补丁，从而能够处理更多的视频帧而不增加序列长度。
动态调整分辨率：为了平衡长视频处理的计算需求和整体训练效率，Qwen2-VL动态调整每个视频帧的分辨率，限制每个视频的总标记数为16384。这种策略确保了模型在处理长视频时的效率和性能。

训练方法

阶段1：预训练

通过大量的图像-文本对，训练ViT以提取图像中的特征，并将其与文本信息相结合。 • 目标：专注于训练视觉Transformer（ViT）组件，以增强大型语言模型（LLM）的语义理解能力。 • 数据：使用大规模的图像-文本对数据集进行训练，以提高模型对图像语义的理解。

阶段2：全参数预训练

通过更广泛的数据集，训练模型在多种任务上的表现，特别是复杂的多模态任务。 • 目标：解锁所有参数并进行更广泛的数据训练，实现更全面的学习。 • 数据：引入更多样化的数据集，包括图像-文本对、OCR数据、交错图像-文本文章、视觉问答数据集、视频对话和图像知识数据集。

阶段3：SFT

通过SFT，训练模型理解和执行各种指令的能力，特别是在多模态任务中。

目标：冻结ViT参数，专门对LLM进行微调，优化其在指令遵循任务上的表现。
数据：使用指令遵循数据集进行训练，涵盖纯文本对话数据和多模态对话数据。数据格式如下：

Qwen2.5-VL

模型架构

在Qwen2.5-VL中，模型的整体架构由三个主要组件构成：大型语言模型（LLM）、视觉编码器（Vision Encoder）和基于MLP的视觉-语言融合器。以下是对这些组件的详细解释：

LLM：Qwen2.5 LLM
视觉编码器：采用重新设计的ViT架构。支持原生输入分辨率，同时加速整个视觉编码器的计算过程。
- 2D-RoPE：用于有效地捕捉二维空间中的空间关系。
- 窗口注意力：在大多数层中使用窗口注意力，以确保计算成本与patch数量成线性关系，而不是二次关系。这种设计允许模型在处理不同大小的图像时保持高效。
- 动态采样：在训练过程中，图像的高度和宽度被调整为28的倍数，然后输入到ViT中。输入图像被分割成步长为14的patch，生成一组图像特征。
- 3D patch划分：对于视频数据，两帧连续的图像被组合在一起，以减少输入到语言模型的标记数量。这种方法不仅保持了与传统架构的兼容性，还提高了处理顺序视频数据的效率。
基于MLP的视觉-语言融合器：为了应对长序列图像特征的效率挑战，Qwen2.5-VL采用了一种简单而有效的方法来压缩特征序列。首先，不直接使用ViT提取的原始补丁特征，而是将空间上相邻的四组patch特征进行分组。这些分组的特征随后被连接并通过一个两层的MLP进行处理，将其投影到与文本嵌入对齐的维度。这种方法不仅减少了计算成本，还提供了一种灵活的方式来动态压缩不同长度的图像特征序列。

训练方法

Qwen2.5-VL 整体的预训练分为三个阶段：

预训练

视觉预训练: 仅训练 ViT，使用图像标题、视觉知识和 OCR 数据。
多模态预训练: 解冻所有模型参数，使用交错数据、VQA、视频、智能体等多种数据。
长上下文预训练: 引入视频、智能体数据，并增加序列长度。

预训练数据着重通过各种策略提升了数据质量：

交错图文数据: 通过数据评分和清洗流程，确保使用高质量、相关的交错数据。
绝对位置坐标的grounding数据: 使用基于输入图像实际尺寸的坐标值来表示边界框和点，提高模型对真实世界尺度和空间关系的捕捉能力。
文档全解析数据: 合成包含表格、图表、公式、图像、乐谱、化学式等多种元素的文档数据，并以 HTML 格式统一表示，实现多模态文档元素的无缝集成。
OCR 数据: 收集和整理来自不同来源的 OCR 数据，包括合成数据、开源数据和内部收集的数据，并支持多种语言。
视频数据: 动态采样 FPS，构建长视频标题，并以秒和时分秒帧 (hmsf) 格式表示时间戳。
智能体数据: 收集移动、Web 和桌面平台的屏幕截图，并使用合成数据引擎生成屏幕截图标题和 UI 元素接地注释。

其中最值得注意的特性是目标检测任务使用了绝对位置坐标，以及视频数据训练中进行动态采样FPS(Frames per second)，目的是为了增强VLM的空间和时间理解能力。

后训练

Qwen2.5-VL 的后训练采用包含监督微调 (SFT) 和直接偏好优化 (DPO) 的双阶段优化范式，ViT的参数在整个后训练阶段都是冻结的。

监督微调 (SFT)

SFT阶段用到的instruction data包含约 200 万条数据，50% 为纯文本数据，50% 为多模态数据（图文和视频文本）。在数据过滤流程中，先使用 Qwen2-VL-Instag （一个基于Qwen2-VL的分类模型）将 QA 对分层分类为 8 个主要领域和 30 个细粒度子类别，然后对于这些细分类别，使用领域定制过滤，结合基于规则和基于模型的过滤方法。

此外，在训练中还使用拒绝采样 (Rejection Sampling)技术，增强模型的推理能力。使用一个中间版本的 Qwen2.5-VL 模型，对带有标注（ground truth）的数据集生成响应，将模型生成的响应与标注的正确答案进行比较，只保留模型输出与正确答案匹配的样本，丢弃不匹配的样本。此外还进一步过滤掉不理想的输出，例如：代码切换 (code-switching)、过长 (excessive length)、重复模式 (repetitive patterns)等。通过这种方式，确保数据集中只包含高质量、准确的示例。
- 基于规则的过滤: 删除重复模式、不完整或格式错误的条目，以及不相关或可能导致有害输出的查询和答案。
- 基于模型的过滤: 使用 Qwen2.5-VL 系列训练的奖励模型评估多模态 QA 对。
直接偏好优化 (DPO):

介绍的不是特别的详细，没看懂，仅使用图文和纯文本数据，不使用视频数据，利用偏好数据将模型与人类偏好对齐。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述