《重新审视深度部分标签学习中的一致性正则化》2022年ICML论文精读-优快云博客

本文链接：https://blog.youkuaiyun.com/qq_52810166/article/details/146285870

摘要

我们提出了一种新的正则化训练框架，该框架针对非候选标签采用有监督学习，同时对候选标签引入一致性正则化。具体而言，我们通过将一个实例的多个增强输出与自适应推断的共形标签分布相匹配来实现正则化，其中共形标签分布可通过闭式解高效计算。在多个基准数据集上的实验结果表明，所提方法在性能上超越了现有最先进的技术。

1. 引言

传统的正则化训练方法通常通过监督损失和正则化项的组合优化模型参数。本文提出了一种创新框架，结合非候选标签的有监督学习和候选标签的一致性正则化，利用数据增强和共形标签分布提升模型性能。本文将详细阐述实现方法、理论基础及实验验证。

2. 方法论

2.1 对实例进行多个增强输出

实现方式：通过数据增强技术为每个实例生成多个增强版本。具体采用AutoAugment和Cutout两种策略：

从AutoAugment的增强策略池中随机选择一个策略，生成中间增强结果；
对中间结果应用Cutout，进一步增加多样性。
最终，每个实例 $x$ 生成增强集合 $\{Aug_i(x) | 1 \leq i \leq K\}$ ，为一致性训练提供多样化输入。

2.2 共形标签分布的定义

定义：共形标签分布 $P$ 是一个针对实例 $x$ 的标签概率分布，满足：

$\sum_{k \in S} p_k = 1$ （候选标签集 $S$ 内概率和为1）；
$\forall k \notin S, p_k = 0$ （非候选标签概率为0）。
该分布指导增强版本的一致性训练，并通过双层优化动态迭代更新。

初始化：初始分布为均匀分布：
$p_k = \begin{cases} \frac{1}{|S|} & \text{if } k \in S, \\ 0 & \text{otherwise.} \end{cases}$

优化解：通过拉格朗日乘数法，最优分布 $p^*$ 的闭式解为：
$p_k^* = \frac{\left(\prod_{z \in A(x)} g_k(z)\right)^{\frac{1}{|A(x)|}}}{\sum_{j \in S} \left(\prod_{z \in A(x)} g_j(z)\right)^{\frac{1}{|A(x)|}}},$
其中 $g_k(z)$ 为模型对增强实例 $z$ 的输出， $∣ A (x) ∣$ 为增强集合的基数。

2.3 增强输出与共形标签分布的匹配

方法：通过最小化KL散度实现匹配。正则化项定义为：
$\Psi(x, S) = \sum_{z \in A(x)} KL(p \| g(z)),$
其中 $p$ 为共形标签分布， $g (z)$ 为增强实例 $z$ 的模型输出。通过优化模型参数，使 $g (z)$ 趋近于 $p$ ，从而确保一致性。

2.4 闭式解及其在共形标签分布推断中的应用

闭式解定义：闭式解是指通过有限次解析运算得到的精确解。本文证明损失函数 $L(\theta, p)$ 关于 $p$ 的凸性，利用拉格朗日乘数法推导出 $p^*$ 的闭式解（见公式2.2节）。

自适应推断：在训练过程中，每轮迭代根据当前模型输出 $g (z)$ ，按闭式解公式更新 $p^*$ 。这种自适应性通过双层优化实现：
$\begin{aligned} & \underset{\theta}{\arg \min} \, \mathcal{L}(\theta, p^*), \\ & \text{s.t.} \, p^* = \underset{p}{\arg \min} \, \mathcal{L}(\theta, p), \\ & \sum_{k \in S} p_k = 1, \, p_k = 0, \, \forall k \notin S. \end{aligned}$
内层优化求解 $p^*$ ，外层优化更新模型参数 $\theta$ ，两者交替进行。

2.5 正则化项的数学表达

正则化项可形式化为：
$\zeta(x_j) = \left\| x_j - \sum_i w_{ij} x_i \right\| + \left\| f(x_j) - \sum_i w_{ij} f(x_i) \right\|,$
其中 $w_{ij}$ 为权重矩阵元素， $f(x_i)$ 为归一化的标签置信度向量，权重矩阵与模型参数联合优化。

2.6 总体损失函数

总体损失函数由监督损失和正则化项组成：
$\mathcal{L}(x, S) = \mathcal{L}_{\text{sup}}(x, S) + \gamma(t) \cdot \Psi(x, S),$
其中：

监督损失： $\mathcal{L}_{\text{sup}}(x, S) = -\sum_{k \notin S} \log(1 - g_k(x))$ ；
平衡因子： $\gamma(t) = \min\left\{\frac{t}{T'} \lambda, \lambda\right\}$ ，随训练轮次 $t$ 动态调整。

2.7 数据增强策略

策略：采用AutoAugment和Cutout组合增强数据：

从AutoAugment策略池随机选择增强操作；
对结果应用Cutout，保留语义信息的同时增加多样性。
该方法适用于图像分类任务，类似技术也可扩展至文本等领域（如反向翻译）。

3. 实验设置

3.1 数据集

实验基于五个基准图像数据集：

Kuzushiji-MNIST
Fashion-MNIST
SVHN
CIFAR-10
CIFAR-100

3.2 算法流程

步骤	操作
输入	训练集 $D = \{x_i, S_i\}_{i=1}^n$ ，分类器 $g$ 及参数 $\theta$ ，轮数 $T$ ，迭代次数 $I$ ，增强数量 $K$ ，平衡因子 $\lambda$
过程	1. 初始化 $p$ （公式2.2）； 2. 外层循环 $t = 1$ 至 $T$ ： 3. 内层循环 $i = 1$ 至 $I$ ： 4. 从 $D$ 随机抽取批次 $B$ ； 5. 计算 $p^*$ （公式2.2）； 6. 计算损失（公式2.6）； 7. 梯度下降更新 $\theta$ 。
输出	训练好的分类器 $g$