《Qwen2-VL》论文精读【下】：发表于2024年10月 Qwen2-VL 迅速崛起 | 性能与GPT-4o和Claude3.5相当

最新推荐文章于 2025-10-24 10:54:49 发布

原创

最新推荐文章于 2025-10-24 10:54:49 发布 · 1.7k 阅读

17 ·

CC 4.0 BY-SA版权

文章标签：

#多模态模型 #Qwen2-VL

在这里插入图片描述

1 前言

《Qwen2-VL》论文精读【上】：发表于2024年10月 Qwen2-VL 迅速崛起 | 性能与GPT-4o和Claude3.5相当上回详细分析了Qwen2-VL的论文摘要、引言、实验，下面继续精读Qwen2-VL的方法部分。

在这里插入图片描述

2 方法

在这里插入图片描述

Qwen2-VL系列包含三种大小的模型，分别是Qwen2-VL-2B、Qwen2-VL-7B和Qwen2-VL-72B。表1列出了超参数和重要信息。值得注意的是，Qwen2-VL在各种大小的LLM中都使用了675M参数的ViT，以确保ViT的计算负载与LLM的规模无关。

2.1 Model Architecture

在这里插入图片描述

图2展示了Qwen2-VL的综合结构。作者保留了Qwen-VL框架，该框架将视觉编码器与语言模型相结合。对于各种尺度的适应性调整，作者实现了大约6.75亿参数的视觉Transformer（ViT），擅长处理图像和视频输入。在语言处理方面，作者选择了更强大的Qwen2系列语言模型。

为了进一步提高模型在视频中有效感知和理解视觉信息的能力，作者引入了几个关键的升级：

2.2 改进措施

2.2.1 naive动态分辨率支持

这是Qwen2-VL的一个关键架构改进，即引入了 naive动态分辨率支持 。与其前身不同，Qwen2-VL现在可以处理任意分辨率的图像，动态地将它们转换为可变数量的视觉 Token 。为了支持这一功能，作者对ViT进行了修改，删除了原始的绝对位置嵌入，并引入了2D-RoPE来捕获图像的二维位置信息。在推理阶段，不同分辨率的图像被包装成一个单独的序列中，包装长度受限于GPU内存使用。

此外，为了减少每个图像的视觉 Token ，在ViT之后使用一个简单的MLP层来压缩相邻的 2x2 Token 为一个 Token ，压缩后的视觉 Token 的开头和结尾分别放置了特殊的<vision_start|>和<|vision_end|> Token 。因此，使用patch_size=14的ViT编码具有224×224分辨率的图像，在进入LLM之前将被压缩为66个 Token 。

2.2.2 多模态旋转位置编码（M-RoPE）

多模态旋转位置编码（M-RoPE） 另一个关键的架构增强是多模态旋转位置编码（M-RoPE）的创新。与LLMs中的传统1D-RoPE不同，它只能编码一维位置信息，M-RoPE可以有效地模拟多模态输入的位置信息。这是通过将原始旋转嵌入分解为三个组件：时间、高度和宽度来实现的。

对于文本输入，这些组件使用相同的位置ID，使得M-RoPE在功能上等同于1D-RoPE。在处理图像时，每个视觉 Token 的时间ID保持不变，而根据 Token 在图像中的位置，为高度和宽度组件分配不同的ID。
对于视频，由于它们被看作是一系列帧，每个帧的时间ID都会增加，而高度和宽度组件的ID分配模式与图像相同。在模型输入包含多个模态的情况下，每个模态的位置编号通过将前一个模态的最大位置ID加1来初始化。

M-RoPE的示例如图3所示。M-RoPE不仅增强了位置信息建模，还减少了图像和视频的位置ID值，使模型在推理过程中可以扩展到更长的序列。

在这里插入图片描述

2.2.3 统一的图像和视频理解

统一的图像和视频理解 Qwen2-VL采用了一种混合训练方法，结合了图像和视频数据，以确保在图像理解和视频理解方面的熟练程度。为了尽可能地保留视频信息，作者每秒采样每个视频两帧。此外，还集成3D卷积深度为2来处理视频输入，使模型能够处理3D Pipeline 而不是2D块，从而允许在不增加序列长度的情况下处理更多的视频帧。

为了保持一致性，作者将每个图像视为两个相同的帧。为了在长视频处理的计算需求与整体训练效率之间取得平衡，作者动态调整每个视频帧的分辨率，将每个视频的总 Token 数限制在16384个以内。这种训练方法在模型理解长视频的能力和训练效率之间取得了平衡。