DeCo——为什么多模态大模型框架中Q-Former结构变少了?


1. 提出观点——Q-Former是一个低效压缩器

最近在arxiv上的工作 DeCo: Decoupling Token Compression from Semantic Abstraction in Multimodal Large Language Models 比较深入地分析了 Q-former 结构的问题。

先说观点:

1. 训练资源足够的条件下

我们可以在多模态大语言模型中选择 Linear Projector/MLP,作为视觉-文本模态桥接器,即 LLaVA 的路线。

  • 优势:Linear Projector 没有视觉信息损失、训练收敛快、表现也好
  • 唯一的问题是会导致图片 token 序列很长,这在 GPU 等训练资源足够的情况下,是可以克服的。

2. 训练资源有限的条件下(有限的 GPU、训练数据等)

重要表达的是,训练资源有限的条件下(有限的 GPU、训练数据等)Q-former 也只是一个“低效”压缩器 如果想减少图片 token 数量来降低训练代价,简单的 Adaptive Average Pooling 就够了。

DeCo 工作发现,在减少图片 token 这个目标上,简单的 average pooling 表现就比 Q-former 更好、训练收敛也更快。同期的工作 PLLaVA 也在实验结果方面证明了 adaptive pooling 的优势。


2. 为什么简单的Average Pooling比Q-Former结构更好?

2.1 从Q-Former的结构设计

Q-Former的核心是拿一组预定义好的、可学的、固定数量(M 个)的 Query tokens,通过 cross attention 层去融合来自 image encoder 的 image token 信息。

因为 Query tokens 的数量 M 是一个超参,所以我们可以灵活设一个比原始 image tokens number 小的数,就减少了 image tokens。

在这里插入图片描述

DETR

这个设计和 object detection 任务中一个非常经典的工作 DETR【End-to-End Object Detection withTransformers,eccv2020】很像。

DETR 结构

在 DETR 中,这一组 query tokens 是用来提取 object proposal 的,可以认为输入图片特征,query tokens 从中提取到了语义级别的 object concepts

对DETR中学习到的 query tokens 的可视化(from GAE

在这里插入图片描述

2.2 在MLLM中,Q-Former学到了什么?

类似地,我们可以推断,MLLM中的 Q-former 也是通过提取视觉concepts来减少图片tokens数量的,预期Q-former的输出tokens应该代表一组visual concepts。

DeCo中可视化了 MLLM 中 Q-Former 训练后的输出,验证了 Q-Former确实是在视觉语义级别的压缩。 下图可视化了MLLM中训练好的Q-former的输出,高亮了每个query token相对于原始图片patch的相关性矩阵。我们可以看到,将576 image tokens压缩成64 query tokens,每个query token在负责不同的visual concepts,包括不同的objects、attributes和background等等。

在这里插入图片描述

2.3 Q-Former 存在的问题

2.3.1 问题1:作为一个视觉语义提取器,Q-Former是很难学好的

和它的参数量没有直接的关系,比如只用2层的轻量Q-former,也非常难学好。

例如,实验中把LLaVA那套框架,完全相同的模型、数据、训练配置,把MLP换成轻量的2层Q-former(且用BLIP-2的参数初始化),实验结果依然下降非常夸张。

我们猜测是LLaVA使用的558K+665K量级的数据不足以把Qformer学好,但是简单地加入CC12M的数据或者其他数据进行尝试,也没有提升,这其中数据的调配、超参的调整等等流程大大增加了学好一个MLLM的难度,很复杂。考虑到Qwen-VL-Chat系列依然有很强的表现,我们不否认一个好的Q-former的上限,但是它确实在训练方面不简洁也不高效。

2.3.2 问题2:由于不好学,Q-Former很容易成为MLLM中的一个bottleneck,丢失重要的视觉信息

比如通过上面可视化的64个query tokens,query tokens学到的视觉concepts可能是1)稀疏的,只包含了有限的视觉concepts,2)重复的,不同的query tokens表达了重复的视觉concepts,比如下面红色框和绿色框的query tokens是重复的。

Honeybee这篇工作还指出原始的Q-former结构会丢失图片的空间位置信息,等等。

Q-former中视觉信息的损失,会传递到LLM,是不可逆的。

在这里插入图片描述

2.3.3 问题3:在MLLM中,Q-former结构的视觉语义提取是多余的。

在DeCo工作中,解耦了MLLM中图文模态之间的语义对齐流,如下图。

在这里插入图片描述

我们发现经过多模态对齐后,LLM本身就是一个很好的视觉语义提取器

本质上,线性层或者MLP层映射后得到的还是patch级别的视觉特征、不是语义级别的,现在LLaVA路线强大的模型表现也证实了LLM能很好地提取视觉语义来生成文本回答。那么,Q-former对视觉语义的预提取其实就是多余的:让Q-former先进行一遍视觉语义提取得到视觉concepts,然后让LLM基于这些视觉concepts、根据输入的文本问题再进行一遍语义提取生成回答,就很“曲线救国”。本着“让专业的人做专业的事”的想法,在MLLM中,让强大的LLM来做语义级别的理解和提取是更合理的,没必要花很大精力和成本,再去学一个好的Q-former

2.4 Adaptive Average Pooling的优势

所以,DeCo的核心思想就是:为了减少图片token数,没必要用Q-former这种很难学习的视觉语义提取器,简单地在patch-level进行一个下采样就能减少token数,即 Decoupling Token Compression from Semantic Abstraction(DeCo)。那么最常见的一种下采样方式就是2D adaptive pooling。

在这里插入图片描述

相比于Q-former,Adaptive pooling的好处是

  1. pooling操作是无参的,后接一个MLP映射一下视觉特征维度就可,训练收敛很快、简洁高效,不需要很多训练数据。
  2. 2D的基于kernel和stride的操作(类似CNN卷积核),能保留图片的空间信息

在对比实验中,使用了完全相同的实验设置、相同的压缩比(576 image tokens -> 144 query tokens),相比原始的Q-former和增强后的locality-aware Q-former(即Honeybee中提出的C-Abstractor和D-Abstractor),DeCo的方法具有效率和表现上的优势。

在这里插入图片描述

3. 讨论

DeCo的核心是应该丢弃Q-former这种语义压缩器,简单在Patch-level或者更原始的pixel-level进行下采样来减少图片token数。它的思想不局限于Average Pooling,DeCo只是通过分析和实验证明了average pooling是一种很好的下采样方式。

对于image tokens,Q-former是在视觉语义层面进行压缩、可能会丢失语义信息;而adaptive pooling本质上在patch级别进行一个稠密的下采样,可能会丢失原始的patch信息。在不同的压缩比下,两者的信息损失也是一种trade off。在常见的压缩需求上,比如用144 tokens来表示一张图片,adaptive pooling的表现挺能打。同时,它在训练效率方面具有极大的优势,也不需要大量训练数据。实现上,可以直接调用pytorch的 torch.nn.AdaptiveAvgPool2d 函数,简洁方便。

视频理解任务(多图)或者高分辨率图片的场景下,视觉端的token序列会很长,这个时候用average pooling相比于MLP能大大减少token的数量。目前DeCo和PLLaVA主要是在spatial维度上验证了average pooling的简洁高效,但是在temporal维度上还没有充分的探索。

4. 思考

有人认为,Q-former 是适用于 BLIP2 这种 LLM frozen 的情况,对于LLM 放开的情况,Linear 效果要好。大家好像都忽略 BLIP2 LLM 是 frozen 的,但是 LLAVA 是放开的,这关键的 setting 是不一样的。Flamingo 的 LM block 也是 frozen 的。

目前主流观点是,Q-Former会破坏visual token之间的空间关系,现在一般用pooling来减少visual token数量。算力够的话,直接MLP最好。


References

  1. 多模态大模型压缩 论文笔记
  2. 多模态大语言模型(MLLM)为什么最近的工作中用BLIP2中Q-Former结构的变少了?
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值