论文分享：【2025 ICLR】Efficient and Context-Aware Label Propagation for Zero-Few-Shot…_context-aware confidence estimation for rejection-优快云博客

本文链接：https://blog.youkuaiyun.com/m0_52257986/article/details/147178132

贡献

尽管现有SOTA的VLMs在标签效率、训练效率和数据效率方面有所改进，但是在适应下游任务时仍需要针对任务进行超参数调整，并且未能完全利用到测试样本来提升性能。

本文提出了一种基于图的方法用于标签高效的适应和推理。动态构建一个包含文本提示、少量样本和测试样本的图，并使用标签传播进行推理，无需针对特定任务进行调整。无需额外无标签支持集并且利用动态图扩展优化测试样本流形，引入上下文感知特征重加权机制，提高适配精度，此外支持高效图扩展，实现实时归纳推理。

方法

一、概述

近期关于将预训练VLMs适配到下游任务的研究主要集中在提升标签效率、训练效率和数据效率上。方法DMN(2024，非本文章方法)涵盖了这三个方面。DMN利用文本提示（text prompts）、测试样本（test samples）和少样本（few-shot samples）构建一个三分支分类器，最终预测结果由各分支融合而成。该方法在细粒度分类任务上达到了SOTA,但是针对不同任务需要调整一个参数来融合预测，在没有专门的验证集时，会使用测试集来进行超参数调整。DMN还引入了一个测试样本记忆库，用于为每个样本合成自适应分类器。

本文作者假设这些测试样本不仅可以用于分类器合成，还能更有效地捕捉数据流形（数据在高维空间中呈现出的低维结构或几何形态，可以将数据流形想象成一张弯曲的纸张嵌入在高维空间中）以实现传递推理。传递推理方法可以利用数据流形的几何信息来改进预测，例如：

通过构建图（Graph-based Methods）来利用测试样本之间的几何关系。
通过传播标签信息（Label Propagation）在流形结构上进行更合理的推理。

数据流形概念强调的是数据在高维空间中存在的低维结构，合理利用它可以提高机器学习模型的性能，特别是在少样本或半监督学习场景中。

为了减少超参数调优，本文提出基于图的适配与推理方法，动态构建包含少样本、测试样本和文本提示的图，利用数据流形结构采用标签传播进行推理，无需任务特定的超参数调优，更充分地利用无标签测试样本信息。

ZLaP(2024，非本文章方法)基于标签传播进行零样本VLM适配，该方法利用外部数据集构建流形，并采用闭式解将标签从文本提示传播到测试样本。但存在三个问题：

计算成本高，特别是在大规模数据集上（如ImageNet）
静态图未利用测试样本流形，这使得当训练集与测试集存在分布偏移时，性能可能下降。
ZLaP使用余弦相似度来衡量测试样本与文本提示之间的关联性，但由于VLMs在多样化的图文对上进行预训练，视觉特征可能捕捉到无关的语义信息（如背景物体、图像风格），从而导致余弦相似度对下游任务产生偏差。

在这里插入图片描述

如图1所示，本文(ECALP)采用迭代求解标签传播，而非计算量较大的闭式解，这使得增量标签传播和标签重置成为可能；引入上下文感知的特征通道重加权，以更好地适应下游任务，此方法仅需文本提示和/或少样本提供上下文信息进行特征重加权；提出了一种高效的图扩展机制，允许在测试样本流上进行归纳推理，无需获取全部测试数据来执行传递式标注。

二、问题设置

数据有：

下游任务未标记的测试数据的编码特征
(可选的)少数标记数据的特征和标签(y)
已知类名和提示模板构成的文本提示
- 每个类都包含多个文本提示，将这多个文本提示的平均值作为某个类的文本原型，从而得到所有类的文本原型。

任务就是根据文本原型和可选的少数标记数据来推测未标记数据的标签。

三、具体方法

具体方案包括以下几个关键点：

传递式标签传播（Transductive Label Propagation, TLP）

通过构造图结构来进行标签传播，而不是直接计算无标签样本和类原型之间的相似性。

设定一个包含所有数据样本和原型的图 $(\mathcal{V}, \mathcal{E})$ ，其中节点 $v_i$ 代表数据样本或原型，邻接矩阵 $W$ 进行归一化得到 $\tilde{W}$ 。

通过公式： $Y^{t+1} = \alpha \tilde{W} Y^t + (1 - \alpha) Y^0$ 迭代传播标签，并最终收敛到一个闭式解： $Y^{\infty} = (1 - \alpha \tilde{W})^{-1} Y^0$ 其中， $Y^0$ 是初始标签， $\alpha$ 是权重超参数。

论文详细描述了VLM适配协议下的初始标签矩阵 $Y^0$ ，包含文本原型 ( $Y_p$ )、少样本标注样本 ( $Y_l$ ) 和无标签样本 ( $Y_u$ )。具体定义为 $Y^0 = [Y_p^0, Y_l^0, Y_u^0]$ 其中：

$Y_p^0 = \text{diag}(1^{N_p})$ （对角矩阵）
$Y_l^0$ 是标注样本的 one-hot 标签
$Y_u^0 = 0$ （无标签样本的初始标签为零）

通过迭代解法，在每次迭代后重置文本原型和标注样本的标签：
$Y_p^{t+1} = Y_p^0, \quad Y_l^{t+1} = Y_l^0$

动态图扩展

静态图是在所有无标签测试样本 $D_u$ 、文本原型 $P$ 和（可选的）少样本标注样本 $D_l$ 可用时构造的。节点表示数据样本，包括无标签样本 $u_i$ 、文本原型 $p_i$ 和少样本标注样本 $l_i$ 。邻接矩阵 $W$ ，其中

$W_u$ 代表无标签样本之间的连接权重。
$W_{up}$ 代表无标签样本与文本原型的连接权重。
$W_{ul}$ 代表无标签样本与少样本标注样本的连接权重。

论文强调不会直接连接文本原型和少样本标注样本，因此 $W_p = 0$ , $W_l = 0$ , $W_{pl} = 0$ 。

最终 $W$ 矩阵的形式： $\begin{bmatrix} W_u & W_{up} & W_{ul} \\ W_{up}^T & 0 & 0 \\ W_{ul}^T & 0 & 0 \end{bmatrix}$

论文中提到，为了降低计算成本，提高图的鲁棒性，采用了稀疏化 技术，即减少冗余连接，仅保留最重要的连接权重。

静态图方法的问题 在于它假设所有的无标签测试样本是同时可用的，这不适用于流式推理。

通过动态图扩展，逐步更新邻接矩阵 $W$ 以支持流式推理。当新的测试样本 $u_{N_u+1}$ 到来时，不重新计算所有节点的 K 近邻，而是仅查询当前已有节点，并替换最弱的连接。

具体更新规则：
$W_{iN_u+1} = S_i \cdot 1(S_i > \min W_{ij})$

$W_{ij} = W_{ij} \cdot 1(S_i > \min W_{ij}) \cdot 1(j \neq \arg \min W_{ij})$

其中 $S_i = u_{N_u+1}^T u_i$ 表示新样本与已有样本的相似度。这使得计算复杂度变低了，允许增量式更新，适用于大规模流式推理。

增量标签传播

传统标签传播的问题是需要对所有数据点传播标签，计算复杂度高，且不能充分利用已经计算的伪标签（pseudo labels）。

论文提出了一种增量标签传播方法，即利用之前的伪标签来加速标签传播。每次对一个新测试样本进行推理后，其伪标签会被衰减（attenuate），并用于下一批样本的推理。

具体规则： $\hat{Y}_{ui} = \begin{cases} \beta Y^T_{uic}, & \text{if } c = \arg \max_c Y^T_{uic} \\ 0, & \text{otherwise} \end{cases}$ $Y_u^0 = [\hat{Y}_u, 0^{1 \times C}]$

其中， $Y^T_{uic}$ 是第 $T$ 轮传播后的伪标签。只对最高置信度的类别 $c$ 进行赋值，其他类别设为 0。

上下文感知的边权重调整

图的构造依赖于一个适当的距离度量，通常是基于视觉编码器提取的特征进行相似度计算（如余弦相似度）。但是，VLM 在大规模预训练时会学习到包含对象、背景、风格等所有视觉实例的特征，导致直接计算余弦相似度可能会受到不相关信息的干扰。例如：适配VLM到汽车模型分类任务时，背景和颜色信息可能是不必要的，而VLM仍然会将这些信息编码进特征中。

解决方案是重新调整VLM编码特征的重要性，以更好地匹配下游任务的需求。计算文本原型（textual prompts）的特征统计量：

均值（Mean）： $\mu_c^p = \frac{1}{|\mathcal{P}|} \sum_i p_{ic}$
方差（Variance）： $\sigma_c^p = \frac{1}{|\mathcal{P}|} \sum_i (p_{ic} - \mu_c)^2$

其中， $c$ 是特征通道索引， $p_{ic}$ 代表文本原型的第 $c$ 维特征。

如果某个特征通道的方差较高，说明该通道对区分不同文本提示的能力更强，应当增加其权重。但是，在少样本标注样本的特征中，高方差通道可能反映的是类内变化，这种变化在计算相似度时应该被抑制。

计算新的边权重。计算少样本标注样本的特征均值和方差，得到 $\mu_c^l$ 和 $\sigma_c^l$ 。

对于文本原型的特征，使用方差作为加权因子，增强高判别性通道：
$W_{ij}^u = u_i^T \text{Norm} (\text{diag}(\sigma^p) u_j)$
对于少样本标注样本，使用方差的倒数作为加权因子，抑制高方差通道：
$W_{ij}^{lu} = l_i^T \text{Norm} (\text{diag}(1 / \sigma^l) u_j)$
通过这种方式，调整不同特征通道的影响力，使得相似度计算更符合下游任务的需求。

图稀疏化

通过 KNN 搜索和特征通道加权得到的图可能仍然包含一些错误的连接，影响最终的标签传播效果。进一步对图进行稀疏化，采用幂操作来强化图的邻接矩阵： $W_{ij} = W_{ij}^\gamma$ 。其中， $\gamma$ 用于调节边的影响力。这样能去除错误连接，提高不同语义类别的区分度，从而提高VLM适配到下游任务的能力。

在这里插入图片描述

输入（Input）

测试数据流 $D_u$ ：无标签的测试样本，会逐步输入系统。
文本原型 $P$ ：作为先验知识，提供类别信息。
少样本特征 $D_l$ ：如果存在，会提供额外的已知类别样本。
标签传播的迭代次数 $T$ 。

输出（Output）

最终预测的标签 ${ y_i \}$ ，即所有测试样本的分类结果。

初始化（Initialization）

初始化邻接矩阵 $W$ ：
$0^{N_p + N_l + N_u \times N_p + N_l + N_u}$
- 这里的 $N_p$ 、 $N_l$ 、 $N_u$ 分别是文本原型、少样本标注样本和无标签样本的数量。
- 由于最初还没有测试数据， $W$ 是零矩阵。
初始化标签矩阵：
$Y^0_p, Y^0_l, Y^0_u$
- 参考 Eq. 2进行初始化，即：
  - 文本原型的初始标签 $Y^0_p$ 为单位矩阵（每个类别对应自己的类标签）。
  - 少样本样本 $Y^0_l$ 使用 one-hot 编码。
  - 无标签样本 $Y^0_u$ 设为 0（因为测试数据的类别未知）。

处理测试样本（Streaming Processing for $x_i \in D_u$ ）

对于每一个新的测试样本 $x_i$ ，执行以下步骤：

计算边权重，根据 Eq. 8 计算测试节点与其他节点的边权重， $W^u_{ij}, W^{lu}_{ij}$
动态图扩展，根据 Eq. 5 更新图的无标签样本部分，更新 $W_u, W_{up}, W_{ul}$
对图进行对称化、稀疏化和归一化：
$W^T, \quad W = W^\gamma, \quad \tilde{W} = D^{-\frac{1}{2}} W D^{-\frac{1}{2}}$