Pseudo-Label : The Simple and Efficient Semi-Supervised Learning Method--论文笔记

wbzuo

已于 2024-07-06 15:19:04 修改

阅读量502

点赞数

分类专栏：半监督学习深度学习文章标签：论文阅读

于 2024-07-06 00:00:13 首次发布

本文链接：https://blog.youkuaiyun.com/dezwb/article/details/140216622

版权

论文笔记

资料

1.代码地址

https://github.com/iBelieveCJM/pseudo_label-pytorch

2.论文地址

3.数据集地址

论文摘要的翻译

本文提出了一种简单有效的深度神经网络半监督学习方法。基本上，所提出的网络是以有监督的方式同时使用标记数据和未标记数据来训练的。对于未标记的数据，只要选取具有最大预测概率的类别，就可以使用伪标签，就好像它们是真标签一样。这实际上等同于熵正则化。它支持类之间的低密度分离，这是半监督学习通常假设的先验条件。在MNIST手写数字数据集上，利用去噪自动编码器和丢弃，这种简单的方法在标签数据非常少的情况下优于传统的半监督学习方法。

1背景

所有训练深度神经网络的成功方法都有一个共同点：它们都依赖于无监督学习算法。大多数工作分两个主要阶段进行。在第一阶段，无监督预训练，所有层的权重通过这种分层的无监督训练来初始化。在第二阶段，微调，在有监督的方式下，使用反向传播算法用标签全局地训练权值。所有这些方法也都以半监督的方式工作。我们只需要使用额外的未标记数据来进行无监督的预训练。
我们提出了一种更简单的半监督方式训练神经网络的方法。基本上，所提出的网络是以有监督的方式同时使用标记数据和未标记数据来训练的。对于未标记的数据，只需选取每次权重更新具有最大预测概率的类，就像使用真标签一样使用伪标签。该方法原则上可以结合几乎所有的神经网络模型和训练方法。
这种方法实际上等同于熵正则化(Granvalet等人，2006年)。类概率的条件熵可用于类重叠的度量。通过最小化未标记数据的熵，可以减少类概率分布的重叠性。它支持类之间的低密度分离，这是半监督学习的常见先验假设。

2论文的创新点

3 论文方法的概述

3.1 思路

伪标签是未标记数据的目标类，就好像它们是真标签一样。我们只选取对每个未标记样本具有最大预测概率的类别。
$y_i^{\prime}=\begin{cases}1&\text{if }i=\text{argmax}_{i'}f_{i'}(x)\\0&\text{otherwise}\end{cases}$ 我们在Dropout的微调阶段使用伪标签。用标记和未标记的数据同时以有监督的方式训练预先训练的网络。对于未标记的数据，每次权值更新重新计算的伪标签被用于相同的监督学习任务的损失函数。
由于有标签数据和无标签数据的总数有很大不同，并且它们之间的训练平衡对网络性能非常重要，因此总体损失函数为 $L=\frac{1}{n}\sum_{m=1}^{n}\sum_{i=1}^{C}L(y_{i}^{m},f_{i}^{m})+\alpha(t)\frac{1}{n'}\sum_{m=1}^{n'}\sum_{i=1}^{C}L(y_{i}^{\prime m},f_{i}^{\prime m}$