【论文阅读】Intrinsically semi-supervised methods

原创

已于 2022-07-25 05:00:51 修改 · 834 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#半监督 #一致正则化 #扰动

于 2022-06-24 15:00:11 首次发布

本文深入探讨了半监督学习中的两种主要方法：最大边距方法和基于扰动的方法。最大边距方法通过扩展SVM来利用无标签数据。而基于扰动的方法，如 ladder networks、pseudo-ensembles（包括Π-model、Temporal ensembling和Mean Teacher）以及virtual adversarial training，则通过引入模型或数据的不确定性来构建损失函数。这些技术在无标签数据的损失整合方面提供了创新思路。

1 Maximum-margin methods

这个分类里面的经典的就是将SVM从有监督迁移到半监督，考虑无标记样本构造最佳超平面。这个方法偏数学，在这里就不详细介绍了。

2 Perturbation-based methods

基于扰动的方法，感觉这个方法产生的原因很简单，无标记样本没有标签，那么无论是回归还是分类，都没有对错之分，那么怎么产生一种损失的概念加入到目标函数中呢？

Answer: 训练两个网络，这里需要一些tricks来使得两个网络有差异，总之就是不能一样，不然两个模型的预测一样，损失就没有意义了。扰动就是这样的一个trick，比较常见的就是在模型的每一层添加噪声。

2.1 Ladder networks

传送门

2.2 Pseudo-ensembles

相比于上一个模型(Ladder networks)是对数据做扰动，这个模型则是对模型进行扰动。文中叙述，对于以神经网络为基础实现的模型，一种突出的扰动模型的方法是Dropout。这个概念理解应该比较普遍，在这里还是赘述一下，就是在神经网络的训练过程中按照某种策略丢掉一些神经元连接(不在是全连接的状态)，这种丢掉的策略就是Dropout。

$\begin{aligned} &\underset{\xi \sim \Xi}{\mathbb{E}}\left[\frac{1}{l} \cdot \sum_{i=1}^{l} \mathcal{L}\left(\tilde{f}_{\boldsymbol{\theta}}\left(\mathbf{x}_{i} ; \xi\right), y_{i}\right)\right] \\ &\quad+\underset{\xi \sim \Xi}{\mathbb{E}}\left[\frac{1}{n} \cdot \sum_{i=1}^{n} \sum_{k=2}^{K} \lambda_{k} \cdot \mathcal{V}_{k}\left(f_{\boldsymbol{\theta}}^{k}\left(\mathbf{x}_{i}\right), \tilde{f}_{\boldsymbol{\theta}}^{k}\left(\mathbf{x}_{i} ; \xi\right)\right)\right] \end{aligned}\tag{1}$