搞半天VLMs里的位置编码根本就没生效？_beyond semantics: rediscovering spatial awareness -优快云博客

本文链接：https://blog.youkuaiyun.com/qq_36671160/article/details/146581764

论文标题

Beyond Semantics: Rediscovering Spatial Awareness in Vision-Language Models

论文地址

https://arxiv.org/pdf/2503.17349

代码地址

https://user074.github.io/respatialaware/

作者背景

纽约市立大学

动机

视觉-语言模型（VLMs）近年来在处理多模态任务（如图像描述和视觉问答）方面取得了显著进展，但它们在空间推理任务中的表现却一直很差。尽管VLMs能够成功识别物体（例如通过图像分类或描述），但它们在理解物体之间的空间关系时却经常出错，比如无法区分物体的相对位置（例如“左”与“右”）。即VLMs存在“语义处理”能力强，而“空间处理”能力弱的问题

于是作者探索了为什么VLMs会在空间推理方面失败，并提出了能够增强空间感知能力的改进方法

现象

一、token乱序测试

如果位置顺序对空间推理很重要，那么随机打乱视觉token的顺序应该会显著降低模型性能。但实验结果表明，这样的操作对模型的影响非常小，表明VLMs对token顺序不敏感，呈现出“词袋模型”倾向

在这里插入图片描述

二、空间压缩测试

如果细粒度的空间信息很重要，那么通过池化大幅压缩token length维度，会导致模型性能显著降低。但实验结果表明，即使将视觉embedding的维度从576减少到1，性能下降也非常有限，这表明在当前的VLMs中，空间信息对结果并没有多大贡献

在这里插入图片描述

原因分析

实验发现，视觉embedding的范数通常比文本embedding的范数大1到3个数量级，此外作者也通过数学推导证明了此现象的普遍性：

在这里插入图片描述

这种巨大的范数差异导致位置编码在注意力机制中被掩盖。回顾llava架构，图像信号与文字信号在对齐之后一并送入语言模型：

在这里插入图片描述

此时由于图像emb的范数更大，计算自注意力的计算结果便会有显著差异：

在这里插入图片描述

而在正常的模型训练过程中，模型会学着去适应两种信息的差异，即把视觉key生成的注意分数缩放到文本key对应的分数水平。在另一项研究中也发现，放缩比例约为1:4

为了考察这样的缩放如何影响位置编码的独特性，我现在开始推导注意力对位置信息的偏导数：

在这里插入图片描述

令上面红框中分母为U，分子为V，U和V都是关于Φ的函数：

$\begin{array}{l} U_{视觉}=exp(logit_{文本\_视觉}) \\ U_{k}=exp(logit_{文本\_k}) \\ V=\Sigma_k{exp(logit_{文本\_k})} =\Sigma_k{U_k}\\ \end{array}$

根据指数函数求导的性质，有：

$\begin{array}{l} U_{视觉}' = U_{视觉}·logit_{文本\_视觉}' \\ U_{k}' = U_{k}·logit_{文本\_k}' \\ V' = (\Sigma_k{U_k})'= \Sigma_k({U_k·logit_{文本\_k}'}) \\ \end{array}$

然后便可以从分式函数的求导性质出发，推导视觉注意力对位置信息的偏导（变化趋势）：

$\begin{array}{l} \frac{VU_{视觉}'-U_{视觉}V'}{V^2} \\ =\frac{V· U_{视觉}·logit_{文本\_视觉}'-U_{视觉}·\Sigma_k({U_k·logit_{文本\_k}'})}{V^2} \\ =\frac{U_{视觉}}{V}·logit_{文本\_视觉}'-\frac{U_{视觉}}{V}·\frac{\Sigma_k{(U_k·logit_{文本\_k}')}}{V} \\ =\frac{U_{视觉}}{V}·logit_{文本\_视觉}'-\frac{U_{视觉}}{V}·\Sigma_k{(\frac{U_k}{V}·logit_{文本\_k}')} \\ =\frac{U_{视觉}}{V}(logit_{文本\_视觉}'-\Sigma_k{(\frac{U_k}{V}·logit_{文本\_k}')}) \\ =Attention_{文本\_视觉} ·(logit_{文本\_视觉}' - 某个全局信息) \end{array}$