【论文阅读】Semi-Supervised Learning with Ladder Networks

原创已于 2022-06-21 13:31:25 修改 · 1.1k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#论文阅读 #semi-supervised #ladder network

于 2022-06-20 22:21:35 首次发布

论文阅读同时被 2 个专栏收录

29 篇文章

订阅专栏

SSL

7 篇文章

订阅专栏

本文介绍了Semi-Supervised Learning with Ladder Networks的论文，该研究结合监督和无监督学习，通过反向传播同时优化两种损失函数，避免了预训练的需求。论文提出了一种扩展的梯形网络模型，用于半监督分类任务。损失函数包括有监督的交叉熵损失和无监督的去噪自编码器损失，其中后者衡量了不同层间去噪与原始数据的差异。实验在MNIST数据集上进行，尽管处理的是‘排列不变MNIST’，即无位置信息的手写数字，增加了任务难度。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文地址: Semi-Supervised Learning with Ladder Networks
会议: NIPS 2015
任务: 半监督分类

1. 摘要

我们将监督学习与深度神经网络中的无监督学习相结合。所提出的模型经过训练，可以通过反向传播同时最小化监督和非监督成本函数的总和，从而避免了分层预训练的需要。我们的工作建立在 Valpola 提出的梯形网络之上，我们通过将模型与监督相结合来扩展该梯形网络。

2. 算法描述

本文主要是在前任的深度半监督模型上，添加了一些适配以完成半监督任务。阅读这篇论文需要一些前置知识，貌似是有两个版本，一个是会议的（NIPS）,内容精炼，不太容易读懂；还有一个版本，是arxiv的，较为详细。

在这里插入图片描述

结合这两张图，大致的计算流程算是比较清晰了。

这里主要是讨论一下算法中对于损失的计算。

输入数据：
有标签数据：
$\{\mathbf{x}(n), t(n) \mid 1 \leq n \leq N\}$
其中，对于任意样本 $\mathbf{x}(i)$ 的标签为 $t (i)$ ， $\leq i \leq N$ 。
无标签数据：
$\{\mathbf{x}(n) \mid 1 \leq n \leq N\}$

$C=C_{\mathrm{c}}+C_{\mathrm{d}}\tag{1}$
首先，损失分为两个部分，一个是有监督的损失 $C_{\mathrm{c}}$ ，另外一个是无监督的损失 $C_{\mathrm{d}}$ 。

$C_{\mathrm{c}}=-\frac{1}{N} \sum_{n=1}^{N} \log P(\tilde{\mathbf{y}}=t(n) \mid \mathbf{x}(n))\tag{2}$
这个是有监督损失，是分类常用的交叉熵损失。其中， $\tilde{\mathbf{y}}$ 表示的感觉有点问题，是说对一个样本的预测值，没什么没有下标。
$C_{\mathrm{d}}=\sum_{l=0}^{L} \lambda_{l} C_{\mathrm{d}}^{(l)}=\sum_{l=0}^{L} \frac{\lambda_{l}}{N m_{l}} \sum_{n=1}^{N}\left\|\mathbf{z}^{(l)}(n)-\hat{\mathbf{z}}_{\mathrm{BN}}^{(l)}(n)\right\|^{2}\tag{3}$
这个是无监督损失，损失定义了不同层经过去噪与干净数据前向值的差异的加权和，其中权值定义了每个层损失的重要程度不同。

Notice：
在论文实验中，处理的数据集是MNIST，但是在论文中表述的确是"permutation invariant MNIST"。经过多方检索，确认应该是对于手写数字图片的像素点不知道二维位置信息，也就是说无法经过卷积提取特征，可以理解为图片像素被强行展开成一维向量，所以在原文中会说该任务相较于原任务更难。