【ICLR 2025】MLLM视觉Attention重分配!VAR方法来了!无需训练提升多模态能力!

🌐 社群导航

🔗 点击加入➡️【AIGC/LLM/MLLM/3D/自动驾驶】 技术交流群

🔗 点击加入➡️【2-3月CCF投稿】交流群

数源AI 最新论文解读系列

论文名:SEE WHATYOUARETOLD: VISUALATTENTIONSINK IN LARGE MULTIMODAL MODELS

论文链接:https://arxiv.org/pdf/2503.03321

导读

大型多模态模型(LMMs)一直在积极拓展大语言模型在多模态任务中的能力。特别是,大型多模态模型利用预训练的视觉编码器处理图像数据,并使用大语言模型的Transformer解码器生成文本响应。这种简单而强大的架构已被证明在视觉问答、图像描述和视觉推理等视觉 - 语言任务中,利用图像中的视觉信息非常有效。

简介

大型多模态模型(LMMs)通过利用Transformer解码器中文本和视觉标记之间的注意力机制来“查看”图像。理想情况下,这些模型应聚焦于与文本标记相关的关键视觉信息。然而,近期研究发现,大型多模态模型有一种异常的倾向,即持续为特定视觉标记分配高注意力权重,即便这些标记与相应文本无关。在本研究中,我们探究了这些无关视觉标记出现背后的特性,并考察了它们的特征。我们的研究结果表明,这种行为是由于某些隐藏状态维度的大规模激活所致,这与语言模型中发现的注意力陷阱类似。因此,我们将这一现象称为视觉注意力陷阱。特别地,我们的分析显示,去除这些无关的视觉陷阱标记并不会影响模型性能,尽管它们获得了高注意力权重。因此,我们将分配给这些标记的注意力作为剩余资源进行回收,重新分配注意力预算以增强对图像的聚焦。为实现这一目标,我们引入了视觉注意力再分配(VAR)方法,该方法可在以图像为中心的头中重新分配注意力,我们发现这些头天生就聚焦于视觉信息。VAR可以无缝应用于不同的大型多模态模型,以提高其在广泛任务中的性能,包括通用视觉 - 语言任务、视觉幻觉任务和以视觉为中心的任务,且无需额外的训练、模型或推理步骤。实验结果表明,VAR通过调整大型多模态模型的内部注意力机制,使其能够更有效地处理视觉信息,为提升大型多模态模型的多模态能力提供了新方向。

方法与模型

图2:大语言多模态模型(LMMs)典型架构及视觉注意力汇聚点研究示意图。一个大型多模态模型接收图像和文本作为输入。每个文本标记通过Transformer解码器中的注意力机制与视觉标记进行交互。我们可以以注意力图的形式将这种交互可视化。我们发现,注意力图中不相关的视觉标记(标记为红色框)在隐藏状态的特定维度上有大

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值