CVPR 2024- Improved Visual Grounding through Self-Consistent Explanations

Hello_Git

已于 2024-11-10 18:09:28 修改

阅读量881

点赞数 32

分类专栏： Visual Grounding 文章标签：人工智能深度学习计算机视觉

于 2024-11-07 21:02:54 首次发布

本文链接：https://blog.youkuaiyun.com/qq_46060468/article/details/143606902

版权

Visual Grounding 专栏收录该内容

3 篇文章

订阅专栏

全文翻译解析

符号解释

$< T, V >$ ：表示图像 - 文本对，其中( $T$ )代表文本，( $V$ )代表图像。
$\phi_{t}$ ：文本编码器，用于对输入文本进行编码。
$\phi_{v}$ ：图像编码器，用于对输入图像进行编码。
$\phi_{f}$ ：多模态融合编码器，用于融合图像和文本的特征表示。
$D$ ：用于微调模型的数据集，由图像 - 文本对组成。
$\vec{y}$ ：二维独热向量，用于指示输入图像和文本是否匹配。
$\phi_{f}^{cls}$ ：多模态融合编码器中的线性层，后接softmax函数，用于图像 - 文本匹配任务。
$\mathcal{H}$ ：交叉熵损失函数。
$\mathcal{L}_{itm}$ ：图像 - 文本匹配损失（Image - Text Matching Loss），用于衡量模型预测图像和文本匹配程度的损失。
$T^{-m}$ ：输入的掩码文本，用于掩码语言建模任务。
$\overrightarrow{t^{m}}$ ：掩码标记的独热向量。
$\phi_{f}^{m}$ ：用于掩码语言建模的线性层和softmax激活函数。
$\mathcal{L}_{mlm}$ ：掩码语言建模损失（Masking Language Modeling Loss），用于训练模型根据上下文和图像信息预测掩码单词的能力。
$B$ ：负样本对的数量，用于图像 - 文本对比学习任务。
$\tau$ ：softmax函数的温度参数，用于调整概率分布。
$\mathcal{L}_{itc}$ ：图像 - 文本对比损失（Image - Text Contrastive Loss），用于拉近匹配的图像 - 文本对的表示，远离不匹配的对。
$\mathcal{L}_{vl}$ ：基础模型的训练目标，是图像 - 文本匹配损失、掩码语言建模损失和图像 - 文本对比损失的组合。
$T^{e}$ ：输入图像 - 文本对( $< V, T >$ )的释义文本。
$D^{'}$ ：微调数据集，包含图像、原始文本和释义文本的三元组( $V, T, T^{e}>$ )。
$F$ ， $F^{e}$ ：分别为从多模态交互编码器中提取的原始文本和释义文本与图像输入对的中间特征图。
$\varphi$ ：特征图提取操作。
$G$ ， $G^{e}$ ：分别为原始文本和释义文本通过GradCAM计算得到的注意力图（解释热图）。
$R e LU$ ：修正线性单元激活函数。
$\nabla$ ：梯度计算符号。
$\mathcal{L}_{sim}$ ：简单均方误差损失，用于最小化原始文本和释义文本注意力图之间的( $\ell_{2}$ )距离，以促进自一致性。
$M_{i,j}$ ：感兴趣区域（RoI）掩码，根据注意力图在位置( $(i, j)$ )的和是否超过阈值( $k$ )来确定该位置是否属于RoI。
$R$ ， $R^{e}$ ：分别为原始文本和释义文本在RoI掩码内的注意力图。
$\mu_{RoI}$ ， $\mu_{RoI}^{e}$ ：分别为原始文本和释义文本在RoI内注意力分数的均值。
$\sigma_{RoI}$ ， $\sigma_{RoI}^{e}$ ：分别为原始文本和释义文本在RoI内注意力分数的标准差。
$\mathcal{L}_{cst}$ ：一致性损失，期望RoI区域内的注意力图达到一致的高分数，以增强自一致性、准确性和潜在的工作词汇扩展。
$\lambda$ ：超参数，用于控制( $\mathcal{L}_{sim}$ )和( $\mathcal{L}_{cst}$ )损失的相对影响。
$\mathcal{L}_{SelfEQ}$ ：自一致性等价调整目标，是( $\mathcal{L}_{sim}$ )和( $\lambda \cdot \mathcal{L}_{cst}$ )的组合。
$F$ （大写）：自动将输入文本短语( $T$ )映射为释义( $T^{e}$ )的函数。
$k$ ：用于确定RoI掩码的阈值，当( $(G_{i,j}+G_{i,j}^{e})\geq k$ )时，( $M_{i,j}=1$ )，表示该位置属于RoI。
$N$ ：在计算( $\mathcal{L}_{sim}$ )损失时用于归一化的参数，通常与注意力图的尺寸相关。
$i$ ， $j$ ：注意力图中的像素位置索引。
$\odot$ ：元素级乘法运算符。
$ma x$ ：取最大值函数。
$\alpha$ ：用于组合视觉语言目标( $L_{vl}$ )和自一致性等价调整目标( $L_{SelfEQ}$ )的超参数，在训练过程中其值会发生变化。

公式1 - 4中符号变量解释

公式1： $\mathcal{L}_{itm}=\mathbb{E}_{(V, T) \sim D} \mathcal{H}\left(\vec{y}, \phi_{f}^{cls}\left(\phi_{v}(V), \phi_{t}(T)\right)\right)$
- $\mathcal{L}_{itm}$ ：图像-文本匹配损失（Image Text Matching Loss），用于衡量图像与文本匹配程度。
- $\sim D$ ：表示从数据集( $D$ )中采样得到图像( $V$ )和文本( $T$ )的一对样本。
- $\phi_{t}$ ：文本编码器，用于对输入文本进行编码。
- $\phi_{v}$ ：图像编码器，用于对输入图像进行编码。
- $\phi_{f}$ ：多模态融合编码器，用于融合图像和文本的特征表示。
- $\vec{y}$ ：二维的独热向量，用于表示样本( $< V, T >$ )是否构成匹配
- $\phi_{f}^{cls}$ ：多模态融合编码器中的一个线性层，后面跟着softmax函数
- $\mathcal{H}$ ：交叉熵损失函数，用于计算预测的匹配概率分布与真实的匹配标签( $\vec{y}$ )之间的差异。
公式2： $\mathcal{L}_{mlm}=\mathbb{E}_{\left(V, T^{-m}\right) \sim D} \mathcal{H}\left(\overline{t}^{m}, \phi_{f}^{m}\left(\phi_{v}(V), \phi_{t}\left(T^{-m}\right)\right)\right)$
- $\mathcal{L}_{mlm}$ ：掩码语言建模损失（Masking Language Modeling Loss），用于训练模型在给定上下文和图像信息的情况下预测掩码单词的能力。
- $\left(V, T^{-m}\right) \sim D$ ：从数据集( $D$ )中采样得到图像( $V$ )和掩码文本( $T^{-m}$ )的一对样本，掩码文本是在原始文本中随机掩码了一些单词后的文本。
- $\overline{t}^{m}$ ：掩码标记的独热向量，表示被掩码的单词。
- $\phi_{f}^{m}$ ：用于掩码语言建模任务的线性层和softmax激活函数
公式3： $\begin{array}{r} \mathcal{L}_{itc }=\mathbb{E}_{(V, T) \sim D} \frac{1}{2}\left[\mathcal{H}\left(\vec{y}, \frac{exp \left(\phi_{v}(V) \cdot \phi_{t}(T)\right) / \tau}{\sum_{b=1}^{B} s\left(V, T_{b}\right)}\right)\right. \\ \left.+\mathcal{H}\left(\vec{y}, \frac{exp \left(\phi_{t}(T) \cdot \phi_{v}(V)\right) / \tau}{\sum_{b=1}^{B} s\left(T, V_{b}\right)}\right)\right]\end{array}$
- $\mathcal{L}_{itc}$ ：图像 - 文本对比损失（Image - Text Contrastive Loss），其目的是拉近匹配的图像 - 文本对的表示，同时拉远不匹配的图像 - 文本对的表示
- $\tau$ ：softmax函数的温度参数，用于调整概率分布的“尖锐程度”。当( $\tau$ )较小时，softmax函数输出的概率分布会更“尖锐”，即对较大的值响应更强烈，对较小的值响应更弱；当( $\tau$ )较大时，概率分布会更“平滑”。
- $B$ ：负样本对的数量，用于在对比学习中引入负样本。如果有一个正样本对( $(V, T)$ )，那么会有( $B$ )个负样本对( $V, T_b)$ )（其中( $T_b$ )是与( $V$ )不匹配的文本）参与计算。
- $s\left(V, T_{b}\right)$ 和( $s\left(T, V_{b}\right)$ )：用于计算样本之间某种相似度或得分的函数
公式4： $\mathcal{L}_{vl}=\mathcal{L}_{itm}+\mathcal{L}_{mlm}+\mathcal{L}_{itc}$
- $\mathcal{L}_{vl}$ ：基础模型的训练目标，是图像 - 文本匹配损失( $\mathcal{L}_{itm}$ )、掩码语言建模损失( $\mathcal{L}_{mlm}$ )和图像 - 文本对比损失( $\mathcal{L}_{itc}$ )的总和。这个组合损失函数用于在训练过程中优化基础模型，使其能够学习到图像和文本之间的有效表示和关系。

公式5 - 13中符号变量解释

xx
- $F$ ， $F^{e}$ ：表示从多模态交互编码器中提取的( $V, T$ )以及( $V, T^{e}$ )的中间特征图。
- $\phi$ ：特征图提取操作，输出相应的中间特征图。
- $\phi_{t}(T)$ ， $\phi_{t}\left(T^{e}\right)$ ：文本编码器( $\phi_{t}$ )分别对原始文本( $T$ )和释义文本( $T^{e}$ )进行编码
- $G$ ， $G^{e}$ ：分别为原始文本和释义文本通过GradCAM计算得到的注意力图（解释热图）。
- $\odot$ ：元素级乘法运算符，表示将两个张量在对应元素上进行相乘操作。
- $\nabla$ ：梯度计算符号
- $\mathcal{L}_{sim}$ ：简单均方误差损失，用于衡量原始文本和释义文本注意力图之间的差异，目的是使两个注意力图在像素级别上更加相似，从而促进模型的自一致性。
- $\left(V, T, T^{e}\right) \sim D'$ ：表示从微调数据集( $D^{'}$ )中采样得到图像( $V$ )、原始文本( $T$ )和释义文本( $T^{e}$ )的三元组样本。
- $i$ ， $j$ ：注意力图中的像素位置索引
xx
- $M_{i,j}$ ：感兴趣区域（RoI）掩码，是一个与注意力图尺寸相同的二值矩阵
- $k$ ：用于确定RoI掩码的阈值，控制RoI的大小和范围
- $R$ ， $R^{e}$ ：分别为原始文本和释义文本在RoI掩码内的注意力图。通过进行元素级乘法操作，得到只保留RoI区域内信息的注意力图，使模型更加关注可能包含正确预测的区域，减少无关区域的干扰
- $\mu_{RoI}$ ， $\mu_{RoI}^{e}$ ：RoI内注意力分数的均值，反映模型在RoI区域内对图像的平均关注程度
- $\sigma_{RoI}$ ， $\sigma_{RoI}^{e}$ ：在RoI内注意力分数的标准差，用于衡量注意力分数在RoI区域内的离散程度
- $\mathcal{L}_{cst}$ ：一致性损失，期望RoI区域内的注意力图达到一致的高分数
- $2-\mu_{R o I}$ ：这部分损失鼓励模型提高RoI内的注意力分数均值，从而使注意力更加集中在可能正确的区域。
公式5： $F=\phi\left(\phi_{v}(V), \phi_{t}(T)\right), F^{e}=\phi\left(\phi_{v}(V), \phi_{t}\left(T^{e}\right)\right)$
- $F$ , $F^{e}$ ：表示从多模态交互编码器中提取的( $< V, T >$ )以及( $V, T^{e}>$ )的中间特征图。
- $\phi$ ：特征图提取操作，输出相应的中间特征图。
- $\phi_{t}(T)$ ， $\phi_{t}\left(T^{e}\right)$ ：文本编码器( $\phi_{t}$ )分别对原始文本( $T$ )和释义文本( $T^{e}$ )进行编码
公式6： $\begin{aligned} G & =ReLU\left(F \odot \nabla \mathcal{H}\left(\vec{y}, \phi_{f}^{c l s}\left(\phi_{v}(V), \phi_{t}(T)\right)\right)\right) \\ G^{e} & =ReLU\left(F^{e} \odot \nabla \mathcal{H}\left(\vec{y}, \phi_{f}^{c l s}\left(\phi_{v}(V), \phi_{t}\left(T^{e}\right)\right)\right)\right)\end{aligned}$
- $G$ ， $G^{e}$ ：分别为原始文本和释义文本通过GradCAM计算得到的注意力图（解释热图）。
- $\odot$ ：元素级乘法运算符，表示将两个张量在对应元素上进行相乘操作。
- $\nabla$ ：梯度计算符号
- $\vec{y}$ ：二维独热向量，用于指示输入图像和文本是否匹配
- $\phi_{f}^{cls}$ ：多模态融合编码器中的线性层，后接softmax函数，用于计算图像 - 文本匹配分数
公式7： $\mathcal{L}_{sim }=\mathbb{E}_{\left(V, T, T^{e}\right) \sim D'}\left[\frac{1}{N} \sum_{i, j}\left(G_{i, j}-G_{i, j}^{e}\right)^{2}\right]$
- $\mathcal{L}_{sim}$ ：简单均方误差损失，用于衡量原始文本和释义文本注意力图之间的差异，目的是使两个注意力图在像素级别上更加相似，从而促进模型的自一致性。
- $\left(V, T, T^{e}\right) \sim D'$ ：表示从微调数据集( $D^{'}$ )中采样得到图像( $V$ )、原始文本( $T$ )和释义文本( $T^{e}$ )的三元组样本。
- $i$ ， $j$ ：注意力图中的像素位置索引
公式8： $M_{i,j}=\left\{\begin{array}{l} 1,\left(G_{i,j}+G_{i,j}^{e}\right) \geq k \\ 0,\left(G_{i,j}+G_{i,j}^{e}\right)<k\end{array}\right.$
- $M_{i,j}$ ：感兴趣区域（RoI）掩码，是一个与注意力图尺寸相同的二值矩阵
- $k$ ：用于确定RoI掩码的阈值，控制RoI的大小和范围
公式9： $\odot M, R^{e}=G^{e} \odot M$
- $R$ ， $R^{e}$ ：分别为原始文本和释义文本在RoI掩码内的注意力图。通过进行元素级乘法操作，得到只保留RoI区域内信息的注意力图，使模型更加关注可能包含正确预测的区域，减少无关区域的干扰
公式10： $\mu_{R o I}=\frac{\sum_{i, j} R_{i, j}}{\sum_{i, j} M_{i, j}}, \mu_{R o I}^{e}=\frac{\sum_{i, j} R_{i, j}^{e}}{\sum_{i, j} M_{i, j}}$
- $\mu_{RoI}$ ， $\mu_{RoI}^{e}$ ：RoI内注意力分数的均值，反映模型在RoI区域内对图像的平均关注程度
公式11： $\sigma_{R o I}=\sqrt{\frac{\sum_{i, j} M_{i, j} \cdot\left(R_{i, j}-\mu_{R o I}\right)^{2}}{\sum_{i, j} M_{i, j}}}, \sigma_{R o I}^{e}=\sqrt{\frac{\sum_{i, j} M_{i, j} \cdot\left(R_{i, j}^{e}-\mu_{R o I}^{e}\right)^{2}}{\sum_{i, j} M_{i, j}}}$
- $\sigma_{RoI}$ ， $\sigma_{RoI}^{e}$ ：在RoI内注意力分数的标准差，用于衡量注意力分数在RoI区域内的离散程度
公式12： $\begin{aligned} \mathcal{L}_{cst }= & \mathbb{E}_{\left(V, T, T^{e}\right) \sim D'}\left[\sigma_{R o I}+\sigma_{R o I}^{e}+\right. \\ & \left.max \left(0, k / 2-\mu_{R o I}\right)+max \left(0, k / 2-\mu_{R o I}^{e}\right)\right]\end{aligned}$
- $\mathcal{L}_{cst}$ ：一致性损失，期望RoI区域内的注意力图达到一致的高分数。提高模型对对象位置的定位准确性和对不同等效文本输入的一致性响应。
- $2-\mu_{R o I}$ ：这部分损失鼓励模型提高RoI内的注意力分数均值，使其更接近阈值的一半，从而使注意力更加集中在可能正确的区域。
公式13： $\mathcal{L}_{SelfEQ }=\mathcal{L}_{sim }+\lambda \cdot \mathcal{L}_{cst }$
- $\mathcal{L}_{SelfEQ}$ ：自一致性等价调整目标。通过调整超参数( $\lambda$ )，使模型在追求注意力图像素级相似性( $\mathcal{L}_{sim}$ )的同时，更加注重RoI区域内的一致性和准确性( $\mathcal{L}_{cst}$ )，从而实现自一致性的提升和视觉定位能力的增强。

摘要

经过训练以将图像与文本进行匹配的视觉与语言模型，可以与视觉解释方法相结合，从而指出图像中特定对象的位置。我们的工作表明，通过针对自洽的视觉解释进行微调，这些模型的定位（“基础”）能力能够得到进一步提升。我们提出了一种使用大语言模型为现有文本 - 图像数据集扩充释义的策略，以及SelfEQ，这是一种针对释义的视觉解释图的弱监督策略，用于鼓励自洽性。具体来说，对于一个输入的文本短语，我们尝试生成一个释义，并微调模型，使得该短语及其释义在图像中映射到相同的区域。我们认为，这既扩展了模型能够处理的词汇量，又提高了基于梯度的视觉解释方法（如GradCAM）所突出显示的对象位置的质量。我们证明，SelfEQ在Flickr30k、ReferIt和RefCOCO +数据集上的性能优于强大的基线方法和多项先前的工作。特别是，与其他不使用任何类型边界框注释的方法相比，我们在Flickr30k上达到了84.07%（绝对提升4.69%），在ReferIt上达到了67.40%（绝对提升7.68%），在RefCOCO +测试集A和B上分别达到了75.10%和55.49%（平均绝对提升3.74%）。

引言

经过训练以将图像与文本相关联的视觉与语言模型，已被证明在许多任务和基准测试中是有效的[21, 27, 31, 41]，包括对象检测[18, 54]和图像分割[15, 36, 50]。由于这些模型通常使用来自网络的野外数据进行训练，只要对象在训练数据中有良好的表示，它们就能处理各种各样的对象词汇。即使没有针对任何特定的下游任务进行调整[14, 32, 52]，这些模型往往也非常准确[16, 22, 28, 47]。ALBEF模型[27]尤其具备视觉“定位”能力，换句话说，它能够通过简单地与诸如GradCAM[43]这样的视觉解释方法结合使用，在图像中定位对象。鉴于该模型仅使用图像和文本进行监督训练，而没有任何类型的对象位置注释，这种能力尤为显著。

为了提高视觉与语言模型的定位能力，许多方法通过边界框或分割注释进行进一步的微调，或者依赖预训练的对象检测器或边界框提议网络[5, 12, 19, 23, 30, 51]。我们的工作则旨在通过弱监督来提高仅在图像 - 文本对上训练的模型的定位能力。但是，如果无法获取对象位置注释，我们如何提高模型定位对象的能力呢？考虑图1中的示例，模型的任务是指出此图像中飞盘对象的位置。基线模型能够成功找到该对象，但当使用等效但更通用的名称“圆盘”进行提示时，却无法定位该对象。无论基线模型能否找到其中任何一个，这两个提示的视觉解释应该是相同的，因为在这两种情况下查询都指向同一个对象。我们的工作利用了这一特性，首先使用大语言模型生成释义，然后提出一种弱监督的自一致性等价微调（SelfEQ）目标，该目标鼓励对指同一图像中同一对象或区域的释义输入文本对生成一致的视觉解释。
在这里插入图片描述

图 1. 以前的模型可以定位单词 frisbee，但难以处理等效但更常见的指称，例如 disc。使用我们提出的 SelfEQ 目标调整的模型鼓励对释义提示进行一致的视觉解释，并在这两个示例上表现良好。SelfEQ 不仅可以实现更大的工作词汇表，还可以提高整体定位性能。

给定一个纯粹在图像 - 文本对上预训练的基础视觉与语言模型，如ALBEF[27]，SelfEQ对模型进行微调，使得对于给定的输入图像和文本对，使用GradCAM[43]提取的视觉注意力图在提供相同图像和文本释义时，能够产生相似的视觉注意力图。图2提供了我们方法的概述。我们工作的另一个贡献在于利用大语言模型（LLM）为现有数据集（如包含单个对象和区域文本描述的Visual Genome[26]，或包含全局图像描述的MS - COCO[33]和CC3M[46]）自动生成释义。我们发现SelfEQ不仅扩展了基础模型能够定位的对象词汇量，更重要的是，提高了模型在标准基准测试（如ReferIt基准测试[24]中的指代表达理解和Flickr30K Entities基准测试[40]中的区域 - 短语定位）上的视觉定位能力。总之，我们的主要贡献如下：

我们设计了一种新颖的目标SelfEQ，以鼓励视觉与语言模型为等效文本短语生成自洽的视觉解释，从而在扩展模型工作词汇的同时提高定位能力。
我们提出促使大语言模型为单个对象或区域生成释义后的图像描述。特别是，我们采用Vicuna - 13B[6]并设计文本提示以获得高质量的释义。
我们通过超越先前的方法证明了我们方法的有效性，在Flickr30k上实现了4.69%的改进，在ReferIt上实现了7.68%的改进，在RefCOCO +上实现了3.74%的改进。

最后，我们计划在发表时发布我们的代码、生成的释义和模型检查点。

方法

我们从一个由文本编码器( $\phi_{t}$ )、图像编码器( $\phi_{v}$ )和多模态融合编码器( $\phi_{f}$ )组成的基础视觉 - 语言模型开始，同时还有一个用于微调该模型的数据集( $D$ )，其包含图像 - 文本对( $< T, V >$ )。3.1节介绍了基础模型的训练目标，我们在微调基线模型时也采用了这些目标，并且在使用SelfEQ微调最终模型时也会结合这些目标。

3.1基础模型：预备知识

我们的基础视觉 - 语言模型是ALBEF[27]，它依赖于三个广泛用于视觉和文本表示学习的目标：图像 - 文本匹配、掩码语言建模和对比损失。我们在此简要介绍它们，因为它们在微调过程中也会被重复使用。

图像 - 文本匹配损失（ITM）

该损失使用[CLS]标记的输出来预测输入图像和输入文本是否匹配，定义如下：
( $\mathcal{L}_{itm}=\mathbb{E}_{(V, T) \sim D} \mathcal{H}\left(\vec{y}, \phi_{f}^{cls}\left(\phi_{v}(V), \phi_{t}(T)\right)\right)$ )
其中( $\vec{y}$ )表示一个二维的独热向量，用于指示样本( $< V, T >$ )是否构成匹配，( $\phi_{f}^{cls}$ )表示一个接着softmax函数的线性层，( $\mathcal{H}$ )是交叉熵损失函数。

这个损失的计算过程是，对于数据集中的每一对图像( $V$ )和文本( $T$ )，首先通过图像编码器( $\phi_{v}$ )对图像进行编码，通过文本编码器( $\phi_{t}$ )对文本进行编码，然后将编码后的图像和文本特征输入到多模态融合编码器( $\phi_{f}$ )的分类头（( $\phi_{f}^{cls}$ )）中，得到一个预测向量，该向量与表示匹配或不匹配的独热向量( $\vec{y}$ )进行交叉熵计算，得到图像 - 文本匹配损失。其目的是让模型学习判断给定的图像和文本是否相关匹配。

掩码语言建模损失（MLM）

该损失已应用于各种视觉 - 语言预训练模型[5, 27, 29, 34]。它整合上下文文本和输入图像来推断输入文本中的掩码词。在对单个输出嵌入使用线性层和softmax激活函数( $\phi_{f}^{m}$ )后，目标表示为：
( $\mathcal{L}_{mlm}=\mathbb{E}_{\left(V, T^{-m}\right) \sim D} \mathcal{H}\left(\overline{t}^{m}, \phi_{f}^{m}\left(\phi_{v}(V), \phi_{t}\left(T^{-m}\right)\right)\right)$ )
其中独热向量( $\overrightarrow{t^{m}}$ )表示掩码标记，( $T^{-m}$ )表示输入的掩码文本。

在训练时，会随机将文本中的一些词替换为掩码标记，模型需要根据图像和剩余的文本信息来预测这些掩码词。具体计算是，对于带有掩码的文本( $T^{-m}$ )和对应的图像( $V$ )，经过编码和融合后，通过( $\phi_{f}^{m}$ )得到预测的掩码词向量，与真实的掩码词独热向量( $\overline{t}^{m}$ )计算交叉熵损失。这有助于模型学习文本和图像之间的语义关联，提高对文本的理解和生成能力。

图像 - 文本对比损失（ITC）

它通过使相应的文本 - 图像对的表示相对于不对应的文本 - 图像对更接近，来提高视觉和文本表示之间的对齐。该目标可以定义如下：
( $\begin{array}{r} \mathcal{L}_{itc}=\mathbb{E}_{(V, T) \sim D} \frac{1}{2}\left[\mathcal{H}\left(\vec{y}, \frac{\exp \left(\phi_{v}(V) \cdot \phi_{t}(T)\right) / \tau}{\sum_{b = 1}^{B} s\left(V, T_{b}\right)}\right)\right.\\ \left.+\mathcal{H}\left(\vec{y}, \frac{\exp \left(\phi_{t}(T) \cdot \phi_{v}(V)\right) / \tau}{\sum_{b = 1}^{B} s\left(T, V_{b}\right)}\right)\right] \end{array}$ )
其中( $B$ )是负样本对的数量，( $\tau$ )是softmax函数的温度参数。

这个损失的计算涉及到对比学习的思想。对于一个正样本对（匹配的图像( $V$ )和文本( $T$ )），模型希望其图像和文本特征的点积在经过归一化（通过softmax和温度参数( $\tau$ )）后，相对于其他负样本对（不匹配的图像 - 文本对）更大。通过计算这种对比损失，模型能够学习到更好的视觉和文本表示，使得匹配的图像 - 文本对在特征空间中更接近，不匹配的对更远离。

图像 - 文本对比损失（ITC）含义解释

总体目标
- 图像 - 文本对比损失（( $\mathcal{L}_{itc}$ )）的总体目标是通过拉近正样本对（匹配的图像 - 文本对）之间的表示距离，同时拉远正样本对与负样本对（不匹配的图像 - 文本对）之间的表示距离，来提高视觉（图像）和文本表示之间的对齐程度。这样做可以让模型更好地区分匹配和不匹配的图像 - 文本组合，从而学习到更有判别性的视觉和文本特征表示。
公式各部分含义
- ( $\mathbb{E}_{(V, T) \sim D}$ )：表示对数据集( $D$ )中的图像 - 文本对( $(V, T)$ )取期望。这意味着在整个数据集上进行平均计算，以确保损失函数反映了模型在整个数据分布上的表现。
- ( $\frac{1}{2}$ )：是一个系数，用于平衡公式中两个部分的贡献，因为公式中包含了两个类似的计算项（分别对应图像编码与文本编码的相互作用）。
- ( $\mathcal{H}\left(\vec{y}, \frac{\exp \left(\phi_{v}(V) \cdot \phi_{t}(T)\right) / \tau}{\sum_{b = 1}^{B} s\left(V, T_{b}\right)}\right)$ )和( $\mathcal{H}\left(\vec{y}, \frac{\exp \left(\phi_{t}(T) \cdot \phi_{v}(V)\right) / \tau}{\sum_{b = 1}^{B} s\left(T, V_{b}\right)}\right)$ )：这两部分是计算对比损失的核心部分，下面分别解释。
  - ( $\vec{y}$ )：是一个二维的独热向量，表示样本( $(V, T)$ )是否构成匹配。例如，如果( $(V, T)$ )是匹配的正样本，( $\vec{y}$ )中对应匹配的位置为( $1$ )，否则为( $0$ )。
  - ( $\phi_{v}(V)$ )和( $\phi_{t}(T)$ )：分别是图像( $V$ )通过图像编码器( $\phi_{v}$ )得到的图像特征表示，以及文本( $T$ )通过文本编码器( $\phi_{t}$ )得到的文本特征表示。
  - ( $\phi_{v}(V) \cdot \phi_{t}(T)$ )（或( $\phi_{t}(T) \cdot \phi_{v}(V)$ )）：表示图像特征和文本特征的点积。点积的值反映了图像和文本之间的相似性，点积越大，说明图像和文本在特征空间中的对齐程度越高，越可能是匹配的正样本。
  - ( $\exp \left(\phi_{v}(V) \cdot \phi_{t}(T)\right) / \tau$ )（或( $\exp \left(\phi_{t}(T) \cdot \phi_{v}(V)\right) / \tau$ )）：这里的( $\exp$ )是指数函数，( $\tau$ )是温度参数。对图像 - 文本点积结果进行指数运算并除以温度参数( $\tau$ )，目的是调整特征之间的相似度分布，使得在计算softmax时能够更灵活地控制不同样本对之间的相对重要性。温度参数( $\tau$ )越小，softmax函数的输出越倾向于“极端”，即更加强化正样本和负样本之间的差异；( $\tau$ )越大，输出越平滑，差异相对不那么明显。
  - ( $\sum_{b = 1}^{B} s\left(V, T_{b}\right)$ )（或( $\sum_{b = 1}^{B} s\left(T, V_{b}\right)$ )）：这里( $B$ )是负样本对的数量，( $s\left(V, T_{b}\right)$ )（或( $s\left(T, V_{b}\right)$ )）是用于计算与负样本对相关的归一化项。通常( $s\left(V, T_{b}\right)=\exp \left(\phi_{v}(V) \cdot \phi_{t}\left(T_{b}\right)\right) / \tau$ )（或( $s\left(T, V_{b}\right)=\exp \left(\phi_{t}(T) \cdot \phi_{v}\left(V_{b}\right)\right) / \tau$ )），表示当前图像( $V$ )（或文本( $T$ )）与第( $b$ )个负样本文本( $T_{b}$ )（或图像( $V_{b}$ )）的特征点积经过指数运算和温度调整后的结果。这个求和项用于对正样本对的相似度得分进行归一化，使得在所有负样本对的背景下评估正样本对的相对重要性。
  - ( $\frac{\exp \left(\phi_{v}(V) \cdot \phi_{t}(T)\right) / \tau}{\sum_{b = 1}^{B} s\left(V, T_{b}\right)}$ )（或( $\frac{\exp \left(\phi_{t}(T) \cdot \phi_{v}(V)\right) / \tau}{\sum_{b = 1}^{B} s\left(T, V_{b}\right)}$ )）：这是经过归一化后的正样本对的相似度得分，它表示在考虑了所有负样本对的情况下，当前正样本对的相对重要性或匹配程度。
  - ( $\mathcal{H}\left(\vec{y}, \frac{\exp \left(\phi_{v}(V) \cdot \phi_{t}(T)\right) / \tau}{\sum_{b = 1}^{B} s\left(V, T_{b}\right)}\right)$ )（或( $\mathcal{H}\left(\vec{y}, \frac{\exp \left(\phi_{t}(T) \cdot \phi_{v}(V)\right) / \tau}{\sum_{b = 1}^{B} s\left(T, V_{b}\right)}\right)$ )）：最后，将归一化后的正样本对相似度得分与表示匹配与否的独热向量( $\vec{y}$ )进行交叉熵计算。交叉熵损失函数用于衡量模型预测的相似度得分与真实的匹配标签( $\vec{y}$ )之间的差异。如果模型能够正确地将正样本对的相似度得分预测得较高（接近( $1$ )），负样本对的相似度得分预测得较低（接近( $0$ )），那么交叉熵损失就会较小，模型在区分正、负样本对方面的能力就越强。
整体作用
- 通过最小化图像 - 文本对比损失( $\mathcal{L}_{itc}$ )，模型被鼓励学习到一种特征表示，使得匹配的图像 - 文本对在特征空间中紧密聚集在一起，而不匹配的对则相互远离。这种学习过程有助于模型更好地理解图像和文本之间的语义关联，提高其在视觉 - 语言任务中的性能，例如在图像 - 文本检索、视觉定位等任务中，能够更准确地找到与给定图像相关的文本描述，或者根据给定文本在图像中定位相关对象。

基础模型的训练目标

基础模型的训练目标是上述三个损失函数的组合：
( $\mathcal{L}_{vl}=\mathcal{L}_{itm}+\mathcal{L}_{mlm}+\mathcal{L}_{itc}$ )
这个损失( $\mathcal{L}_{vl}$ )也将用于微调我们的基线模型。通过将这三个损失相加，模型可以在多个方面进行学习和优化，包括图像 - 文本匹配的准确性、根据图像预测文本中掩码词的能力以及视觉和文本表示之间的对齐，从而提高整体的视觉 - 语言理解和处理能力。

3.2自一致性等价微调

SelfEQ假设模型能够获取每个输入图像 - 文本对( $< V, T >$ )（或者实际上是这些样本的一个子集）的释义( $T^{e}$ )。因此，我们假设有一个微调数据集( $D^{'}$ )，其中包含三元组( $V, T, T^{e}>$ )，使得对于相应的输入文本( $T$ )存在释义( $T^{e}$ )。定义SelfEQ目标的第一步是通过GradCAM[43]基于输入文本生成解释热图（即注意力图）。我们从多模态交互编码器( $\phi_{f}$ )中提取输入对( $< V, T >$ )和( $V, T^{e}>$ )的中间特征图，如下所示：
( $\phi(\phi_{v}(V), \phi_{t}(T)), F^{e}=\phi(\phi_{v}(V), \phi_{t}(T^{e}))$ )
其中( $\phi$ )表示特征图提取操作。然后，我们计算( $F$ )和( $F^{e}$ )关于图像 - 文本匹配分数( $\mathcal{L}_{itm}$ )的梯度。这个计算产生了原始文本和释义文本的注意力图，分别称为( $G$ )和( $G^{e}$ )：
( $ReLU(F\odot\nabla\mathcal{H}(\vec{y}, \phi_{f}^{cls}(\phi_{v}(V), \phi_{t}(T))))$ )
( $G^{e}=ReLU(F^{e}\odot\nabla\mathcal{H}(\vec{y}, \phi_{f}^{cls}(\phi_{v}(V), \phi_{t}(T^{e}))))$ )

我们的SelfEQ微调基于这样一个前提，即如果一个视觉 - 语言模型被认定为自一致的，那么为文本及其等效释义生成的注意力图应该产生几乎相同的结果。为了实现这一点，我们首先对生成的热图应用简单的均方误差损失，以使它们的( $\ell_{2}$ )距离最小化，从而变得更加相似：
( $\mathcal{L}_{sim}=\mathbb{E}_{(V, T, T^{e})\sim D'}[\frac{1}{N}\sum_{i,j}(G_{i,j}-G_{i,j}^{e})^{2}]$ )

然而，虽然最小化像素级距离的总和有助于实现自一致性，但如果没有正则化项，这个损失很容易陷入平凡解。例如，它可能导致注意力图具有均匀的负或正预测，或者只是非常小的值。为了解决这个限制，我们建议通过定义一个感兴趣区域（RoI）掩码来整合这些热图。这个掩码旨在保留注意力图中可能包含正确预测的区域。我们的方法基于这样的观察，即尽管等效文本输入的预测不一致，但有时在两个热图中具有大值的区域或重叠的区域往往是正确的。因此，我们假设如果在给定位置( $(i, j)$ )处的注意力分数之和超过某个阈值( $k$ )，则很可能表示正确的预测。我们将该条件形式化如下：
( $M_{i,j}=\begin{cases}1, & (G_{i,j}+G_{i,j}^{e})\geq k \\ 0, & (G_{i,j}+G_{i,j}^{e})<k\end{cases}$ )
在RoI掩码内的注意力图通过逐元素乘法获得，如下所示：
( $G\odot M, R^{e}=G^{e}\odot M$ )

RoI掩码的整合使我们能够使用等效文本来进行相互监督，改进和提高准确性，并为先前定义的基于距离的损失提供正则化。此外，它有可能通过工作词汇扩展来解决由于未知或不常见单词导致的错误。假设其中一个文本表达式是已知且被正确理解的，模型可以通过弱监督推断出另一个等效表达式的含义。为了实现这一点，我们首先计算RoI内的均值( $\mu_{RoI}$ )、( $\mu_{RoI}^{e}$ )和标准差( $\sigma_{RoI}$ )、( $\sigma_{RoI}^{e}$ )，如下所示：
( $\mu_{RoI}=\frac{\sum_{i,j}R_{i,j}}{\sum_{i,j}M_{i,j}}, \mu_{RoI}^{e}=\frac{\sum_{i,j}R_{i,j}^{e}}{\sum_{i,j}M_{i,j}}$ )
( $\sigma_{RoI}=\sqrt{\frac{\sum_{i,j}M_{i,j}\cdot(R_{i,j}-\mu_{RoI})^{2}}{\sum_{i,j}M_{i,j}}}, \sigma_{RoI}^{e}=\sqrt{\frac{\sum_{i,j}M_{i,j}\cdot(R_{i,j}^{e}-\mu_{RoI}^{e})^{2}}{\sum_{i,j}M_{i,j}}}$ )

我们提出一个一致性损失( $(\mathcal{L}_{cst})$ )，期望注意力图的RoI区域获得一致的高分数，进一步加强自一致性、准确性和潜在的工作词汇扩展。这个目标公式如下：
( $\begin{aligned}\mathcal{L}_{cst}=\mathbb{E}_{(V, T, T^{e})\sim D'}[\sigma_{RoI}+\sigma_{RoI}^{e}+\\\max(0, k/2-\mu_{RoI})+\max(0, k/2-\mu_{RoI}^{e})]\end{aligned}$ )

最后，我们的自一致性等价微调的目标表示为：
( $\mathcal{L}_{SelfEQ}=\mathcal{L}_{sim}+\lambda\cdot\mathcal{L}_{cst}$ )
其中( $\lambda$ )是一个超参数，用于控制每个损失的相对影响。

解释

SelfEQ方法的核心在于通过引入释义和特殊的损失函数来促使模型在处理等效文本时产生一致的视觉解释（注意力图）。首先，利用GradCAM生成原始文本和释义文本的注意力图，然后通过均方误差损失( $\mathcal{L}_{sim}$ )来初步使它们相似。但为避免平凡解，引入RoI掩码，根据注意力分数之和是否超过阈值( $k$ )来确定RoI区域，在该区域内计算均值和标准差，并定义一致性损失( $\mathcal{L}_{cst}$ )，鼓励RoI区域内注意力分数的一致性。最终的SelfEQ损失( $\mathcal{L}_{SelfEQ}$ )是( $\mathcal{L}_{sim}$ )和( $\lambda\cdot\mathcal{L}_{cst}$ )的组合，超参数( $\lambda$ )平衡两者影响，从而实现对模型的微调，提高其自一致性和定位能力。

公式8、9、10、11含义及来由解释

公式8（RoI掩码定义）
- 含义：
  - ( $M_{i,j}$ )是一个定义在注意力图每个位置( $(i, j)$ )上的掩码值。当原始文本和释义文本在位置( $(i, j)$ )处的注意力分数之和( $G_{i,j}+G_{i,j}^{e})$ )大于等于阈值( $k$ )时，( $M_{i,j}=1$ )，表示该位置可能是正确预测的区域，应该被保留关注；当和小于( $k$ )时，( $M_{i,j}=0$ )，表示该位置不太可能是正确区域，在后续计算中可能被忽略或给予较低权重。
- 来由：
  - 由于仅通过最小化原始文本和释义文本注意力图的像素级距离（如公式7中的( $\mathcal{L}_{sim}$ )），模型可能会陷入一些不合理的解，例如生成全是正或负的值很小的注意力图。为了避免这种情况，研究人员观察到在实际中，即使对于等效文本，注意力图中具有较大值或重叠的区域往往更可能是正确定位对象的区域。基于此，通过设定阈值( $k$ )来确定一个可能包含正确预测的感兴趣区域（RoI），从而引导模型关注这些更有意义的区域，而不是盲目地追求整体的像素级相似性。
公式9（RoI掩码内注意力图获取）
- 含义：
  - ( $G\odot M$ )和( $R^{e}=G^{e}\odot M$ )分别表示原始文本和释义文本在经过RoI掩码处理后的注意力图。这里的( $\odot$ )是逐元素乘法操作。通过将原始注意力图( $G$ )（或( $G^{e}$ )）与RoI掩码( $M$ )进行逐元素相乘，只有在RoI掩码中值为( $1$ )的位置（即被认为可能正确的区域），原始注意力图中的值才会被保留，而掩码值为( $0$ )的位置对应的注意力图值将变为( $0$ )。这样就得到了仅聚焦于RoI区域的注意力图( $R$ )（和( $R^{e}$ )），后续的计算和分析将主要基于这些RoI内的注意力图进行，从而更有效地利用了可能正确的区域信息，同时减少了其他不太可靠区域的干扰。
- 来由：
  - 一旦确定了RoI掩码（公式8），为了在后续计算中突出显示和利用这些可能正确的区域，需要将原始注意力图与掩码进行整合。逐元素乘法是一种自然的方式来实现这种整合，使得注意力图能够根据RoI掩码的指示，仅保留在可能正确区域内的信息，为进一步计算和分析提供了更有针对性的数据。
公式10（RoI内均值计算）
- 含义：
  - ( $\mu_{RoI}=\frac{\sum_{i,j}R_{i,j}}{\sum_{i,j}M_{i,j}}$ )计算了原始文本注意力图在RoI区域内的均值。分子( $\sum_{i,j}R_{i,j}$ )是在RoI掩码( $M$ )所确定的区域内（即( $M_{i,j}=1$ )的位置），原始文本注意力图( $R$ )所有值的总和。分母( $\sum_{i,j}M_{i,j}$ )则是RoI掩码内值为( $1$ )的元素个数，也就是RoI区域的大小（以元素数量计）。通过将总和除以区域大小，得到了原始文本注意力图在RoI区域内的平均注意力分数，这个均值可以反映原始文本在可能正确区域内的整体注意力集中程度。
  - ( $\mu_{RoI}^{e}=\frac{\sum_{i,j}R_{i,j}^{e}}{\sum_{i,j}M_{i,j}}$ )同理计算了释义文本注意力图在RoI区域内的均值，用于衡量释义文本在可能正确区域内的注意力集中程度，以便后续比较原始文本和释义文本在RoI区域内的注意力分布情况，进而评估它们的一致性和模型的性能。
- 来由：
  - 为了定量地描述原始文本和释义文本在RoI区域内的注意力分布特征，均值是一个常用的统计量。计算均值可以帮助了解在模型认为可能正确的区域内，平均而言注意力是如何分布的。通过比较原始文本和释义文本的均值，可以初步判断它们在RoI区域内的注意力集中程度是否相似，这对于评估模型在处理等效文本时的一致性非常重要。同时，均值也可以作为后续计算一致性损失（公式11）的基础之一，用于衡量模型是否能够使原始文本和释义文本在RoI区域内具有相似的注意力分布。
公式11（RoI内标准差计算）
- 含义：
  - ( $\sigma_{RoI}=\sqrt{\frac{\sum_{i,j}M_{i,j}\cdot(R_{i,j}-\mu_{RoI})^{2}}{\sum_{i,j}M_{i,j}}}$ )计算了原始文本注意力图在RoI区域内的标准差。分子中的( $(R_{i,j}-\mu_{RoI})^{2}$ )计算了每个位置( $(i, j)$ )的注意力值与RoI区域内均值( $\mu_{RoI}$ )的偏差平方，( $M_{i,j}\cdot(R_{i,j}-\mu_{RoI})^{2}$ )表示仅在RoI区域内（( $M_{i,j}=1$ )）计算这些偏差平方，然后求和( $\sum_{i,j}M_{i,j}\cdot(R_{i,j}-\mu_{RoI})^{2}$ )得到RoI区域内所有位置偏差平方的总和。最后除以RoI区域大小( $\sum_{i,j}M_{i,j}$ )并取平方根，得到标准差( $\sigma_{RoI}$ )。标准差衡量了原始文本注意力图在RoI区域内注意力分数相对于均值的离散程度，即注意力分布的分散情况。
  - ( $\sigma_{RoI}^{e}=\sqrt{\frac{\sum_{i,j}M_{i,j}\cdot(R_{i,j}^{e}-\mu_{RoI}^{e})^{2}}{\sum_{i,j}M_{i,j}}}$ )同理计算了释义文本注意力图在RoI区域内的标准差。标准差可以反映出注意力图在RoI区域内的稳定性和一致性，如果标准差较小，说明注意力分数在均值附近相对集中，模型在该区域内的注意力分布较为稳定；反之，如果标准差较大，则表示注意力分布较为分散，模型在处理等效文本时可能在RoI区域内的一致性较差。这些标准差也将用于一致性损失（公式11）的计算，以进一步促使模型使原始文本和释义文本在RoI区域内具有更一致的注意力分布。
- 来由：
  - 均值仅能反映注意力在RoI区域内的平均集中程度，但不能完全描述注意力分布的全貌。标准差作为另一个重要的统计量，可以补充均值的信息，提供关于注意力分布离散程度的度量。在评估模型对等效文本生成的视觉解释一致性时，不仅希望它们在RoI区域内的平均注意力集中程度相似（通过均值比较），还希望它们的注意力分布具有相似的稳定性和一致性（通过标准差比较）。因此，计算标准差并将其纳入一致性损失的计算中，可以更全面地约束模型的行为，使其生成更自洽的视觉解释。同时，标准差的计算基于RoI掩码，确保只考虑在可能正确区域内的注意力分布特征，使计算更具针对性和有效性。

3.3自一致性数据增强

在本节中，我们定义了一个函数( $F$ )，它能够自动将输入文本短语( $T$ )映射为释义( $T^{e}$ )，而无需依赖人工注释，即( $T^{e}=F(T)$ )。我们通过使用大语言模型的两级提示方法来实现这一目标，详细内容如下。

短语分块

使用我们的第一级提示，我们旨在通过短语分块来扩充原始文本，以鼓励全局字幕聚焦于更特定的区域。视觉定位旨在根据文本输入在图像中定位对象。相比之下，全局字幕通常描述整个图像，往往涉及多个对象。虽然在全局字幕上进行训练可能有助于学习跨模态信息，但这可能会导致模型预测更广泛的区域（即全局上下文），而非特定区域。短语分块（即浅层解析[55]）旨在识别表示句法单元的连续标记序列，从而能够从非结构化文本中提取短语。我们利用大语言模型将全局字幕分割为以对象为中心的短短语。在训练期间，我们使用这些图像 - 块对来代替全局字幕，从而有效地引导模型将注意力集中在感兴趣的局部区域。关于提示细节和生成示例，请参考补充材料。

释义生成

我们的SelfEQ方法涉及向模型提供指同一底层概念的文本描述对，期望模型能对这些等效描述对( $T, T^{e}>$ )做出相似预测。我们通过第二级大语言模型提示，将基于区域的字幕（即仅指图像中一个区域的文本）和从短语分块中获得的以对象为中心的短短语转换为指同一概念的等效释义，以此扩充我们的数据集。

有许多释义的方式，包括替换单词、改变句子结构以及基于语义重写句子。然而，考虑到视觉与语言中的自一致性相对未被充分探索，我们采用一种直接的策略：替换句子中的主要对象，同时保留所有其他属性。这种策略有几个好处。首先，它提供了一致的上下文，作为模型识别等效描述的参考。这使得释义的等效关系能够直观地被学习。其次，它通过检测主要对象并生成其同义词简化了提示设计和后处理。

为了为包含基于区域的字幕的数据集生成释义，我们选择四个主要名词在其中扮演不同句法角色的文本描述。我们进一步选择两个非句子短语作为提示中的查询文本示例。我们在图3中展示了一个基于区域的字幕和一个非句子短语的示例。为了设计我们的提示，我们在查询文本( $Q$ )中识别主要对象。然后我们使用WordNet[37]自动获取同义词，并进一步去除不准确或无效的单词。我们添加( $A$ )来指示预期答案，并包括其他关系，如反义词、上位词和部分词，以为大语言模型的上下文学习提供更丰富的上下文。补充材料中提供了更多提示细节和释义样本。

这种基于两级提示的大语言模型扩充方法确保我们的模型接触到在语言表示上有所不同但共享同一概念的文本输入，从而促进自一致性并扩展工作词汇。

解释

此部分主要介绍了通过大语言模型进行数据增强的方法。首先利用短语分块将全局字幕聚焦到特定区域，得到以对象为中心的短短语，然后通过释义生成策略将相关文本转换为等效释义来扩充数据集。在释义生成中，采用特定策略（替换主要对象并保留其他属性）及一系列操作（如利用WordNet获取同义词等）来设计提示，以获取高质量的释义。这种数据增强方式有助于模型学习到不同表述下相同概念的文本关系，提高自一致性并扩大词汇量，从而提升模型在视觉定位等任务中的性能。

4. 实验设置 - 训练部分

我们在所有实验中均使用ALBEF[27]作为基础模型，鉴于其通过GradCAM[43]所报告的现成视觉定位性能。ALBEF结合了用于编码图像的ViT - B[11]模型和用于编码文本的BERT - base[10]模型。它在一系列数据集上进行了预训练，包括ImageNet - 1K[42]、Conceptual Captions[46]、SBU Captions[39]、MS - COCO[33]以及不包含边界框注释的Visual Genome（VG）[26]。我们使用来自VG和MS - COCO的图像 - 文本对在无任何类型的边界框监督（即无边界框或对象检测器）的情况下对ALBEF进行微调，遵循先前的工作[2]。此外，我们利用Vicuna - 13B[6]作为我们的大语言模型提示模型，以生成以对象为中心的短短语（通过浅层解析或分块）以及用于我们自一致性数据增强的等效释义。另外，我们通过在Conceptual Captions 3M（CC3M）数据集[46]的预处理子集上进行训练来验证我们SelfEQ微调和自一致性数据增强方法的有效性，该子集包含许多嘈杂或未对齐的网络爬取的AltText - 图像对。使用该子集，我们在Flickr30k上实现了绝对提升2.15%，在ReferIt上实现了3.32%，在RefCOCO +上实现了1.33%；有关详细的CC3M实验，请参考补充材料。

解释

选择ALBEF作为基础模型是因为它在视觉定位方面已有良好表现，其架构包含了特定的图像和文本编码模型（ViT - B和BERT - base），且在多个数据集上预训练过。
微调时使用VG和MS - COCO数据集的图像 - 文本对且无边界框监督，这是为了在特定实验设置下训练模型，符合研究聚焦于弱监督学习的方向。
引入Vicuna - 13B来生成相关短语和释义，是为了实现数据增强，扩充模型可学习的文本多样性，以更好地实现自一致性目标。
在CC3M数据集子集上训练用于验证方法有效性，通过在这个包含特殊图像 - 文本对的数据集上的实验结果，进一步证明SelfEQ方法在不同数据场景下的提升作用。

4. 实验设置 - 评估部分

我们按照先前弱监督视觉定位工作[2, 3]，在Flickr30k[40]和ReferIt[24]上使用指向游戏准确率进行评估。为了强调我们方法的竞争优势，我们还展示了其在RefCOCO + [53]上的性能，RefCOCO + 是一个更具挑战性的基准，通常用于测试有框监督方法[7, 12, 19, 35, 51]。

解释

评估数据集及方式选择依据
- 选择Flickr30k和ReferIt数据集并采用指向游戏准确率进行评估，是因为这是在弱监督视觉定位研究领域中被广泛认可和使用的评估方式及数据集。通过遵循先前相关工作的评估标准，能够使本研究结果与已有研究具有可比性，从而更准确地判断所提出方法的有效性和优劣。
- 对于RefCOCO + 数据集，虽然它通常用于测试有框监督方法，但本研究也在该数据集上评估所提出的弱监督方法，目的是展示其在更具挑战性场景下的性能表现，与有框监督方法进行对比，进一步突出方法的优势和竞争力。
不同数据集特点及作用
- Flickr30k数据集包含丰富的图像与对应的文本描述，通过在该数据集上的评估，可以全面检验模型在不同类型图像和文本组合情况下的视觉定位能力，特别是在处理与现实场景相关的图像 - 文本对时的表现。
- ReferIt数据集专注于指代表达理解任务，这对于评估模型是否能够准确理解和定位自然语言描述所指向的图像对象非常关键，能够反映模型在处理更复杂、多样化的指代表达时的准确性。
- RefCOCO + 数据集具有更高的挑战性，其包含的图像和文本对更复杂，对模型的定位能力要求更高。在该数据集上的良好表现可以证明模型不仅在一般场景下有效，在复杂场景中也能与有框监督方法竞争，体现了方法的鲁棒性和先进性。

通过在这些不同特点的数据集上进行评估，能够从多个角度全面衡量所提出的视觉定位方法的性能，为方法的有效性提供有力的证据支持。

4.1实现细节

我们的实验在一个配备8个NVIDIA A40 GPU的单一计算节点上进行。在训练阶段，输入图像被调整为256×256大小，并进行水平翻转、颜色抖动和随机灰度转换等增强操作。我们在所有实验中设置了Adam优化器[25]，学习率为1e - 5，批量大小为448。我们根据经验将感兴趣区域（RoI）阈值( $k$ )设置为0.8，超参数( $\lambda$ )设置为1.0。对于使用来自数据集的原始图像 - 文本对进行训练，我们采用视觉 - 语言目标( $\mathcal{L}_{vl}$ )（见3.1节），而对于具有等效释义的子集，我们使用我们的自一致性等价微调目标( $\mathcal{L}_{SelfEQ}$ )（见3.2节）以及相应的视觉 - 语言目标( $\mathcal{L}_{vl}^{e}$ )。复合目标函数由( $\mathcal{L}=\alpha\cdot\mathcal{L}_{vl}+(1-\alpha)\cdot(\mathcal{L}_{SelfEQ}+\mathcal{L}_{vl}^{e})$ )给出，其中( $\alpha$ )初始设置为0，并在第二个 epoch后递增至1，之后保持不变。我们的超参数值和调度是在一个小的验证子集上根据经验确定的。

解释

实验硬件环境：明确了实验所使用的计算资源，即一个具有特定数量GPU的计算节点，这为实验提供了计算能力支持，也有助于理解实验的可重复性和资源需求。
图像预处理：对输入图像进行一系列预处理操作，如调整大小和数据增强（翻转、抖动、灰度转换）。调整大小是为了使图像具有统一的尺寸，便于模型处理；数据增强操作有助于增加数据的多样性，提高模型的泛化能力，使其能够学习到图像在不同变换下的特征。
优化器设置：采用Adam优化器并设定学习率和批量大小，这些超参数对于模型的训练过程至关重要。学习率决定了每次参数更新的步长，合适的学习率可以使模型在训练过程中更快地收敛到较好的解；批量大小影响着模型在一次更新中所使用的数据量，对训练的稳定性和效率有影响。
RoI阈值和超参数设置：RoI阈值( $k$ )的设置（0.8）用于确定感兴趣区域，影响模型在关注图像特定区域时的决策；超参数( $\lambda$ )（1.0）用于平衡自一致性等价微调目标中的不同损失项（( $\mathcal{L}_{sim}$ )和( $\mathcal{L}_{cst}$ )），根据实验经验确定其值，以达到最佳的训练效果。
目标函数组合：使用复合目标函数来训练模型，根据训练过程中的不同阶段（由( $\alpha$ )控制），动态调整视觉 - 语言目标( $\mathcal{L}_{vl}$ )和自一致性等价微调目标( $\mathcal{L}_{SelfEQ}$ )及其相关目标( $\mathcal{L}_{vl}^{e}$ )的权重。这种方式使得模型在训练初期主要关注基础的视觉 - 语言学习，随着训练进行逐渐增加自一致性相关目标的影响，有助于模型逐步学习到更准确的视觉定位和自一致性解释能力。并且这些超参数和目标函数的设置都是基于在小验证子集上的实验经验，以确保在整个数据集上的训练效果。

5. 实验结果 -

与此设置下大多数方法相比，我们得到的模型在弱监督视觉基础任务上取得了最好的性能，并且与一些依赖于一些框监督的先前工作相当。此外，我们的定性结果表明，我们的方法可以处理释义和更大的工作词汇，而无需显着增加训练数据集。

Flickr30k和ReferIt部分

我们在表1中评估了所提出的SelfEQ方法的有效性，展示了其相较于基于GradCAM的弱监督方法的显著优势。我们的自一致性等价微调对基于区域（即VG）和基于全局（即COCO）的图像 - 文本对均适应良好，在Flickr30k上相较于我们的基础模型ALBEF（见表3第一行）实现了4.69%的性能提升，在ReferIt上实现了7.68%的性能提升。值得注意的是，我们的方法在Flickr30k上的表现优于几乎所有使用边界框监督的方法[7, 12, 19, 35]。在弱监督设置下，当在Visual Genome图像 - 文本对上进行训练时，我们的方法在ReferIt上仅次于g++[44]。该方法利用自定义架构生成掩码，并在训练期间使用来自CLIP[41]模型的热图监督作为伪标签。我们认为我们的贡献是正交的，并且我们的方法可能也会从类似的监督中受益，因为CLIP是在更大的图像 - 文本对数据集上进行训练的。尽管存在差异，但我们的方法在使用MS - COCO进行训练时仍能获得更高的性能，并且在Flickr30K区域 - 短语定位方面与所有弱监督方法相比具有最佳性能。

解释

SelfEQ方法有效性评估
- 通过与基于GradCAM的弱监督方法对比，SelfEQ在Flickr30k和ReferIt数据集上表现出明显优势，说明其在提高模型视觉定位能力方面的有效性。在Flickr30k上性能提升4.69%，ReferIt上提升7.68%，这是衡量方法成功的关键指标，表明SelfEQ能够更好地使模型学习到图像与文本之间的关系，从而更准确地定位图像中的对象。
不同类型图像 - 文本对适应性
- 该方法对基于区域（VG）和基于全局（COCO）的图像 - 文本对均能很好适应。这意味着SelfEQ不局限于特定类型的图像 - 文本数据，具有较强的通用性，能够在不同数据特征下发挥作用，进一步证明了其在实际应用中的潜力。
与有框监督方法对比
- 在Flickr30k上优于大多数有框监督方法，突出了SelfEQ在无边界框监督情况下的优势，显示其在处理该数据集时能够达到甚至超越使用额外边界框信息的方法的性能。
与其他弱监督方法对比（ReferIt数据集）
- 在ReferIt上仅次于g++方法，但由于g++使用了特定的自定义架构和CLIP模型的伪标签监督，而SelfEQ在不依赖这些特殊设置的情况下仍能取得较高性能，并且在使用MS - COCO训练时表现更优，说明SelfEQ在不同数据集和实验条件下具有竞争力，其贡献与其他方法具有互补性，有进一步提升的空间和潜力。同时，在Flickr30K区域 - 短语定位任务中表现最佳，再次强调了SelfEQ在该特定任务中的优势地位。

在这里插入图片描述

表 1. 使用具有两个训练数据集的指向游戏准确性在两个基准上的视觉接地结果。SelfEQ 在弱监督方法中通常产生了最好的整体性能，并且在使用 VG 训练时在 ReferIt 基准上排名第二。我们还在顶部展示了使用视觉基因组 (VG) 的附加框监督或通过对象检测器的方法的结果。

5. 实验结果 - RefCOCO + 部分

RefCOCO + [53]是视觉定位的一个严格基准，通常用于评估有框监督技术。在表2中，我们展示了我们的弱监督方法（在VG上训练）相对于有框监督方法的性能。我们的结果表明，我们的方法在不依赖任何形式的框注释的情况下具有竞争力，并且显著优于基础ALBEF模型。

在这里插入图片描述

表2。RefCOCO+指向游戏精度的结果。与盒监督方法相比，SelfEQ 显示出对现成 ALBEF 和具有竞争力的结果的显着改进。

5. 实验结果 - 视觉定位分析和自一致性分析部分

视觉定位分析
- 内容翻译：图4提供了我们的方法在具有挑战性的场景中的定性结果，包括被遮挡的对象（第1行）、复杂场景中的小对象（第2行）、图像角落部分显示的对象（第3行）、多个相似对象（第4行）以及缩写文本输入（第5行）。我们的自一致性等价微调方法显著提高了基础ALBEF[27]模型的定位能力。值得注意的是，我们的方法在多种场景中甚至优于最先进的有框监督方法AMC[51]。
- 解释：这部分通过展示在不同困难场景下的定性结果，直观地体现了SelfEQ方法的优势。在被遮挡对象场景中，模型需要克服部分信息缺失的问题来准确定位对象；复杂场景中的小对象容易被其他元素干扰，但SelfEQ仍能较好定位，说明其对细节和复杂环境的处理能力；图像角落对象测试模型对边缘区域的关注能力；多个相似对象场景检验模型区分相似目标的能力；缩写文本输入则挑战模型对不完整、简略文本的理解和定位能力。而SelfEQ在这些场景中表现出色，相比基础模型ALBEF定位能力显著提升，并且超越了有框监督方法AMC，证明了其在复杂实际场景中视觉定位的有效性和先进性。
自一致性分析
- 内容翻译：图5展示了不同等效释义之间自一致性能力的定性结果，包括术语（第1行）、同义词替换（第2行）以及区域俚语与不同句子结构的组合（第3行）。尽管其他方法能够成功定位某些短语，但对于等效释义却表现出不一致性。相比之下，我们使用SelfEQ微调的模型有效地建立了语义等效释义之间的联系，从而增强了模型的自一致性能力，并有可能扩展其工作词汇。
- 解释：这里从语义层面分析了SelfEQ对模型自一致性的影响。在术语、同义词替换和区域俚语与不同句子结构组合等不同类型的等效释义情况下，其他方法可能只能处理单一的短语定位，但当遇到语义相同但表述多样的等效释义时就出现不一致。而SelfEQ通过微调，使模型能够识别不同表述下相同语义的联系，确保对等效释义生成一致的视觉解释，从而提高了自一致性。这种自一致性的增强不仅有助于模型在面对不同文本表述时保持稳定的定位能力，还可能使模型接触并理解更多不同表述方式，进而扩展其能够处理的词汇范围，提高模型对多样化自然语言的适应性。

在这里插入图片描述

图4。与之前的工作相比，我们的方法在具有挑战性的视觉基础场景中的定性结果。在每一行的顶部，我们展示了参考文本，第一列显示图像，然后我们展示了我们的基础模型 ALBEF、SotA 框监督方法 AMC，最后我们用我们的方法 SelfEQ 展示结果。

在这里插入图片描述

图 5. 不同方法之间等效释义的定性结果。对于每个图像，我们展示了一个标题，指的是第一行中的对象和第二行的等效释义。每列显示了 ALBEF、SotA 框监督方法 AMC 和我们的 SelfEQ 方法的结果。

5.1消融研究 - 数据量部分

我们评估了所生成释义的数据量的影响，并将我们的微调策略与标准视觉 - 语言目标进行了比较。我们从VG中随机抽取三次10%与我们扩充的等效释义相关联的数据部分。为了进行比较，我们使用带有VG图像 - 文本对的视觉 - 语言目标作为基线。在图6中，我们展示了指向游戏准确率的平均值和标准差。随着更多文本 - 图像对的增加，基础视觉 - 语言目标的性能并没有呈现稳定的提升。尽管ReferIt的性能有所增加，但RefCOCO +测试集A的性能基本保持不变。此外，Flickr30k的性能显著下降，并且RefCOCO +测试集B的性能受到混合影响，其中一半的准确率低于现成ALBEF模型的53.77%性能。

相比之下，随着更多等效释义的增加，SelfEQ始终能够带来性能提升。随着添加更多带有相应等效释义的数据，在Flickr30k、ReferIt和RefCOCO +测试集A上观察到明显的上升趋势，同时基线之间的差距通常会扩大。值得注意的是，SelfEQ微调在Flickr30k上保持了性能增益，而基线性能却下降了。尽管RefCOCO +测试集B的趋势并非始终上升，但需要强调的是，RefCOCO +测试集B只是一个子集，并且与基础视觉 - 语言目标相比，SelfEQ在其上展示了更稳定和有效的微调性能。

这些观察结果表明，更多与相关文本短语相连接的等效释义使模型在微调过程中能够获取更多有价值的信息。SelfEQ被证明是一种有效且稳健的策略，能够随着我们生成的释义持续提高性能。随着自一致性增强数据的增加，SelfEQ通过增强其自一致性能力引导模型朝着更好的定位性能发展。

解释

研究目的：旨在探究数据量（特别是生成的释义数量）对模型性能的影响，并对比SelfEQ微调策略与标准视觉 - 语言目标在不同数据量情况下的表现。
实验设置：通过从VG数据集中多次随机抽取10%与扩充释义相关的数据来改变数据量，同时设定了使用VG图像 - 文本对的视觉 - 语言目标作为对比基线。
结果分析
- 对于基础视觉 - 语言目标，增加数据量时性能不稳定。在ReferIt上虽有提升，但在Flickr30k上下降，RefCOCO +测试集A基本不变，测试集B受混合影响，这表明单纯增加原始类型的数据对模型性能提升有限且不稳定。
- SelfEQ策略则不同，随着等效释义数据增多，在多个数据集上性能大多呈上升趋势。在Flickr30k和ReferIt以及RefCOCO +测试集A上表现良好，且在Flickr30k上能保持性能增益，相比基线优势明显。尽管RefCOCO +测试集B趋势不完全上升，但相对基线仍更稳定有效，这说明SelfEQ能够有效利用更多释义数据，增强模型自一致性，使模型在不同数据集上表现更优，凸显了SelfEQ策略在处理不同数据量情况下的有效性和稳健性。

在这里插入图片描述

图 6. 在 Flickr30k、ReferIt、RefCOCO+ Test A 和 Test B 上使用不同的数据量调整性能。紫色和青色线分别代表 SelfEQ（我们的）和 ALBEF 基线损失（视觉语言目标）。我们展示了通过 LLM-prompting 逐步增强字幕的效果，以生成使用我们的 SelfEQ 目标调整的等效释义。最好以彩色观看。

我们的方法生成等效释义以增强自一致性，但它也为训练提供了额外的数据。为了确定我们的SelfEQ调优策略的具体影响，我们对这个变量进行了对照实验。如表3所示，我们评估了当等效释义作为常规图像 - 文本对与视觉 - 语言目标（第3.1节）集成时模型的性能。这种比较表明，仅仅用额外的图像 - 释义对扩充数据集，而不在原始文本与其释义之间建立明确的联系，并不能提高性能。

解释

方法特点及实验目的
- 研究方法不仅通过生成等效释义来增强模型的自一致性，同时这些释义作为额外数据参与训练。为了深入探究SelfEQ调优策略本身的作用，进行对照实验，即对比仅增加数据（等效释义）和使用SelfEQ调优（建立原始文本与释义联系）两种情况下模型的性能。
实验设置与操作
- 按照实验设计，将等效释义作为常规图像 - 文本对与视觉 - 语言目标集成，如同在普通训练中加入新的数据对一样，以此模拟仅数据扩充而无特殊调优策略的情况，为后续对比做准备。
实验结果分析
- 实验结果显示，仅扩充数据集而不建立明确联系时，模型性能没有提升。这说明SelfEQ调优策略的关键在于建立原始文本与释义之间的联系，而不仅仅是增加数据量。如果只是简单地向数据集中添加图像 - 释义对，模型无法有效利用这些额外数据来提高性能，因为它没有理解这些数据之间的语义关联（如SelfEQ通过特殊目标函数和训练过程所建立的关联）。这进一步强调了SelfEQ调优策略在利用等效释义提高模型性能方面的重要性和独特性，即通过建立明确联系来增强模型对不同表述下相同语义的理解，从而提升视觉定位等任务的性能。

表3.对利用额外等效释义数据的不同方式进行的消融研究。第一行是在调优之前现成的ALBEF性能。T表示来自数据集的文本字幕，Tⁿ对应于相关的等效释义。( $L_{vl}$ )是视觉 - 语言目标，( $L_{SelfEQ}$ )是我们的自一致性等价调优目标。

5.1. 消融研究 - 数据增强和目标部分

数据增强

对于MS-COCO中基于全局的标题，我们通过大语言模型提示将标题c预处理为以对象为中心的短短语P。如表4所示，使用短语P进行微调会带来更好的性能，这对视觉语言目标（ $L_{vl}$ ）和我们的自一致性等价微调目标（ $L_{SelfEQ}$ ）均有益处。这种改进可能是因为短短语使模型能够专注于特定区域而非整个场景，这与视觉定位的目标更加一致。通过在自一致性等价微调目标中使用等效释义（第3行和第5行），短语分块对SelfEQ的帮助更大，这表明等效释义在促进自一致性和定位能力方面具有重要作用。
在这里插入图片描述

表4。MS-COCO中基于全局字幕的数据增强策略与有或没有释义的比较。C 是 MS-COCO 中基于全局的标题，P 是我们的 Vicuna13B 分别处理以对象为中心的短语。第一行是调优之前现成的ALBEF性能。

5.1 消融研究

目标

表5评估了我们自一致性等价调整目标中的每个组件。 $L_{sim}$ 损失旨在实现像素级相似性，确保标题及其等效释义的注意力图相同。然而，仅关注像素级相似性可能会忽略对象的精确空间位置。为了解决这个问题，提出了 $L_{cst}$ 损失，以识别两个注意力图（即感兴趣区域RoI）中最有可能正确的对象位置，然后鼓励模型在RoI内产生一致的高注意力分数。通过整合 $L_{sim}$ 和 $L_{cst}$ ，自一致性等价调整目标促使模型不仅对齐全局相似性，还通过标题及其释义之间的相互监督来精确定位准确的对象位置，从而提高自一致性和准确性。

$L_{sim}$ 损失的作用与局限
- 作用： $L_{sim}$ 损失专注于使生成的注意力图在像素级别上尽可能相似。其目的是确保对于同一图像，当使用原始文本和其等效释义作为输入时，模型产生的注意力图在像素值上具有高度的一致性。例如，如果原始文本为“蓝色的热水瓶在最底部”，其等效释义为“蓝颜色的保温瓶在最下端”，那么 $L_{sim}$ 损失会促使模型在处理这两个文本输入时，生成的注意力图在各个像素位置上的数值差异尽可能小。这有助于模型在不同表达方式下对同一对象或区域保持一致的关注模式，从某种程度上体现了模型对语义等价性的理解和捕捉能力。
- 局限：尽管 $L_{sim}$ 损失在追求像素级相似性方面有一定作用，但它存在明显的局限性。仅依靠像素级相似性，模型可能会忽略对象在图像中的精确空间位置信息。在实际图像中，对象的位置对于准确的视觉定位至关重要。例如，在一幅包含多个相似蓝色物体的图像中，即使模型根据 $L_{sim}$ 损失生成了相似的注意力图，但如果不能准确确定“蓝色热水瓶”的具体空间位置（如它与其他蓝色物体的相对位置关系、在图像中的坐标范围等），仍然无法实现准确的视觉定位。
$L_{cst}$ 损失的引入与作用
- 引入原因：为了克服 $L_{sim}$ 损失的局限性，引入了 $L_{cst}$ 损失。 $L_{cst}$ 损失的设计基于这样的观察：在两个注意力图中，即使整体上存在一些不一致，但某些区域（如具有较大值的区域或两个图中重叠的区域）往往更有可能包含正确的对象位置预测。例如，在处理“蓝色热水瓶在最底部”和其等效释义时，如果两个注意力图中都在图像底部的某个区域出现了较高的注意力值，且该区域在两个图中有一定的重叠，那么这个区域就更有可能是“蓝色热水瓶”的准确位置。
- 具体作用： $L_{cst}$ 损失通过定义感兴趣区域（RoI）掩码来实现其功能。它首先根据一定的阈值条件（如文中提到的当两个注意力图在某位置的和超过阈值(k)时，认为该位置属于RoI）确定RoI。然后，在RoI内计算注意力分数的均值和标准差等统计信息，并基于这些信息设计损失函数。具体而言， $L_{cst}$ 损失期望RoI区域内的注意力分数能够达到一致的高水平，即鼓励模型在这些可能正确的区域内给予更准确和一致的关注。例如，通过计算RoI内注意力分数的均值，并设置一个合理的阈值（如(k/2)），如果均值低于该阈值， $L_{cst}$ 损失会促使模型调整注意力分配，使RoI内的注意力分数更高且更稳定。同时，标准差的计算也有助于衡量注意力分数在RoI内的离散程度，进一步规范模型的预测，使模型在可能正确的区域内产生更可靠的注意力分布。
两者结合的优势
- 综合效果：通过将 $L_{sim}$ 和 $L_{cst}$ 损失相结合，自一致性等价调整目标实现了多方面的优势。 $L_{sim}$ 损失保证了整体注意力图在像素级别上的相似性，为模型提供了一种基础的自一致性约束，使模型在处理语义等价的文本时具有相似的初始关注模式。而 $L_{cst}$ 损失则在此基础上，进一步聚焦于关键的RoI区域，精确调整模型在这些区域内的注意力分配，从而提高了模型对对象准确位置的定位能力。两者相互补充，共同促使模型在生成注意力图时，不仅在全局上保持相似性，还能在关键区域内准确地突出对象位置，增强了自一致性和视觉定位的准确性。
- 对模型性能的提升：从实验结果（如表5所示）可以看出，单独使用 $L_{sim}$ 损失时，在RefCOCO+测试A和测试B、Flickr30k以及ReferIt等数据集上的性能指标（如定位准确率等）相对较低。而单独使用 $L_{cst}$ 损失时，性能有一定提升，但仍不如两者结合时的效果。当同时使用 $L_{sim}$ 和 $L_{cst}$ 损失时，在各个数据集上的性能均得到显著提高，如在Flickr30k上达到了81.90%的准确率，在ReferIt上达到了67.40%的准确率等。这充分证明了两者结合对于提升模型自一致性和视觉定位能力的有效性，使模型能够更好地处理复杂的视觉定位任务，在不同的数据集和场景下都能表现出更强的适应性和准确性。