＜Squeezing Backbone Feature Distributions to the Max for Efficient Few-Shot Learning＞-优快云博客

本文链接：https://blog.youkuaiyun.com/qq_37252519/article/details/123185092

本文提出了一种新的特征处理方法，通过欧氏归一化、幂变换和均值减法使特征向量更接近高斯分布，以提升模型精度。在小样本学习场景中，优化的传输启发式算法被引入，进一步提高性能。实验结果显示，这种方法在多种数据集、主干架构和少镜头设置下实现了最先进的精度。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在本文中，我们提出了一种新的基于传输的方法，旨在处理特征向量，使其更接近高斯分布，从而提高了精度。
对于在训练期间可以使用未标记测试样本的转导小样本学习，我们还引入了一种优化传输启发算法，以进一步提高所达到的性能。使用标准化的视觉基准，我们展示了所提出的方法能够通过各种数据集、主干架构和少镜头设置实现最先进的精度。

文章目录

Feature extraction

第一步是仅使用基础数据集训练神经网络主干模型。在这项工作中，我们考虑了多个主干，以及各种训练程序。一旦所考虑的主干被训练，我们就会获得强大的嵌入，这些嵌入应该很好地推广到新的类。

特征提取网络记作 $f_{\varphi}$ ，通过骨干提取网络的倒数第二层的输出得到。对于输入 $x$ , $f_{\varphi}(x)$ 是一个维度为 $d$ 的向量，可以被认为是 $x$ 的一种更容易操作的表示

在使用的所有骨干架构中，倒数第二层都是通过应用ReLU函数获得的，因此所有从 $f_{\varphi}$ 中出来的特征数值都是非负的

Feature preprocessing

Euclidean normalization
该步长将特征缩放到相同的区域，这样方差较大的特征向量不会占其他特征向量的优势。
$f_{\varphi}(\mathbf{x}) \leftarrow \frac{f_{\varphi}(\mathbf{x})}{\left\|f_{\varphi}(\mathbf{x})\right\|_{2}}$
Power transform
基本原理是幂变换，通常与欧几里得归一化结合使用，具有减少分布偏斜并将其映射到接近高斯分布的功能，由 $\beta$ 调整
$f_{\varphi}^{h}(\mathbf{x}) \leftarrow\left(f_{\varphi}^{h}(\mathbf{x})+\epsilon\right)^{\beta}, \quad \beta \neq 0$
$\epsilon=1e-6$ ， $\beta$ 是超参数
Mean subtraction
使用均值减法，每个样本使用 $\mathbf{m} \in\left(\mathbb{R}^{+}\right)^{d}$ 投影中心进行平移。这通常与欧几里德归一化结合使用，以减少任务偏差和更好地对齐特征分布
$f_{\varphi}(\mathbf{x}) \leftarrow f_{\varphi}(\mathbf{x})-\mathbf{m}$

Boosted Min-size Sinkhorn

首先，我们定义一个权重矩阵 $W$ ，它有 $n$ 列（即每个类一列）和 $d$ 行（即每个特征向量维度一行），对于 $W$ 中的列 $j$ ，我们将其表示为类 $j$ 的权重参数 $\mathbf{w}_{j} \in \mathbb{R}^{d}$ ,通过下面方程式计算：
$\begin{gathered} \mathbf{w}_{j}=\mathbf{W}[:, j]=\mathbf{c}_{j} /\left\|\mathbf{c}_{j}\right\|_{2}, \\ \mathbf{c}_{j}=\frac{1}{s} \sum_{\mathbf{x} \in \mathbf{S}, \ell(\mathbf{x})=j} f_{\varphi}(\mathbf{x}) . \end{gathered}$
我们可以看到， $W$ 包含了每个类支持集中特征向量的平均值，然后对每个列进行 $L_2$ 归一化处理，使 $\forall j , \left\|\mathbf{w}_{j}\right\|_{2}=1$ .

然后，我们迭代后面描述的多个步骤

a. Computing costs

将样本 $i$ 和类别 $j$ 之间的成本定义为以下对应于余弦距离的等式: $\begin{aligned} \mathbf{C}[i, j] & \propto\left(f_{\varphi}\left(\mathbf{x}_{i}\right)-\mathbf{w}_{j}\right)^{2} \\ &=1-\mathbf{w}_{j}^{T} f_{\varphi}\left(\mathbf{x}_{i}\right) \end{aligned}$
对应源代码的score

b. Min-size Sinkhorn

$\begin{aligned} \mathbf{P} &=\operatorname{Sinkhorn}(\mathbf{C}, \mathbf{p}, \mathbf{q}, \lambda) \\ &=\underset{\tilde{\mathbf{P}} \in \mathbb{U}(\mathbf{p}, \mathbf{q})}{\operatorname{argmin}} \sum_{i j} \tilde{\mathbf{P}}[i, j] \mathbf{C}[i, j]+\lambda H(\tilde{\mathbf{P}}) \end{aligned}$

其中行总和为 p，列总和为 q，p 表示每个样本用于类别分配的数量的分布，q 表示分配给每个类别的样本数量的分布。
因此，U(p;q) 包含所有可能的分配方式。在同一个等式中，C 可以看作是一个成本矩阵

$\tilde{\mathbf{P}}$ 的交叉熵 $H(\tilde{\mathbf{P}})=-\sum_{i j} \tilde{\mathbf{P}}[i, j] \log \tilde{\mathbf{P}}[i, j]$

论文给出算法1，通过迭代算出 $P$ .每次迭代都采用Sinkhorn算法,以便迭代更新类原型以找到它们的最佳估计
在这里插入图片描述

c. Updating weights

现在我们有了一个优化的分配矩阵 $P$ ，我们首先初始化权重 $w_j$ :
$\begin{gathered} \mathbf{w}_{j} \leftarrow \mathbf{u}_{j} /\left\|\mathbf{u}_{j}\right\|_{2} \\ \mathbf{u}_{j} \leftarrow \sum_{i} \mathbf{P}[i, j] f_{\varphi}\left(\mathbf{x}_{i}\right) / \sum_{i} \mathbf{P}[i, j] \end{gathered}$

接下来我们通过逻辑回归进一步调整权重，通过最小化以下损失来进行优化:
$\frac{1}{l+u} \cdot \sum_{i} \sum_{j}-\log \left(\frac{\exp (\mathbf{S}[i, j])}{\sum_{\gamma=1}^{n} \exp (\mathbf{S}[i, \gamma])}\right) \cdot \mathbf{P}[i, j]$
其中， $\mathbf{S} \in \mathbb{R}^{(l+u) \times n}$ 包含 $l o g i t s$ ，其中的每个元素可以通过公式计算： $\mathbf{S}[i, j]=\kappa \cdot \frac{\mathbf{w}_{j}^{T} f_{\varphi}\left(\mathbf{x}_{i}\right)}{\left\|\mathbf{w}_{j}\right\|_{2}}$ .注意 $\kappa$ 是一个尺度参数，用于调整与每个样本相关的置信度指标。它是与 W 共同学习的。