1. 摘要
深度神经网络的成功部分归功于大规模标记良好的训练数据。然而,随着现代数据集规模的不断增长,标签信息的获取变得极为困难。该论文提出了一种基于生成式对抗网络的半监督深度学习增量自标记方法,该方法通过不断地将未标记的数据分配虚拟标签来促进训练过程。具体来说,在分配虚拟标签的过程中,该论文引入了一种基于时间的自标记方法。然后,为了在训练过程中动态地向数据分配更多的虚拟标签,该论文采用了分阶段的增量标签筛选和更新方法。最后,该论文进一步引入了平衡因子项(balance factor Term, BT),平衡训练过程中样本的信息损失。
2. 简介
对于使用生成式对抗网络(GANs)的半监督分类,大多数网络都是通过修改常规的GAN鉴别器来产生k个输出对应于k个类。为了进一步利用未标记的数据进行训练,通常由生成器生成一个额外的第(k + 1)个类,以增强鉴别器的鉴别能力。后者能提取更多的信息特征,用于区分真实数据和虚假数据。
该论文致力于探索一种增量式自标记方法(ISL -GAN),并将其嵌入到稳健的SSL(SSL)框架中,以提高GAN在分类领域的性能。
3. 方法
首先,在标签预测的正确性上面,大部分的训练数据,包括标记数据和未标记数据,在训练过程中都得到了正确的预测。为了进一步检验模型对噪声标记的鲁棒性,该论文在模型训练中加入了一些错误标记的样本,发现一定比例的标签错误确实会影响最终测试的准确性。
下面介绍该论文提出的模型。如图1所示,所提出的模型由两部分组成:第一部分是基于一致性的半监督GAN模型。第二部分负责给未标记数据分配虚拟标签,每隔一定的epoch间隔,对可信度高的数据分配一个虚拟标签来更新已标记的训练数据集。


本文提出了一种基于生成式对抗网络的半监督深度学习方法——ISL-GAN,通过增量自标记策略提升模型在有限标记数据下的分类性能。该方法结合时间动态调整虚拟标签分配,引入平衡因子减少信息损失,有效利用未标记数据增强训练效果。
最低0.47元/天 解锁文章
1459

被折叠的 条评论
为什么被折叠?



