CDBN卷积深度信念网

最新推荐文章于 2024-11-18 11:43:04 发布

doubleslow;

最新推荐文章于 2024-11-18 11:43:04 发布

阅读量4.2k

点赞数 5

CC 4.0 BY-SA版权

分类专栏：机器学习文章标签： CDBN 卷积深度信念网

本文链接：https://blog.youkuaiyun.com/qq_36607894/article/details/96452832

斯坦福大学的Honglak Lee，Andrew Y. Ng的学生的论文。

摘要：
层级生成模型（比如深度信念网络）的无监督学习吸引了非常多的研究兴趣。但是要把这些层级生成模型扩展用于处理全尺寸的高维的图像仍然很困难。本文的CDBN就是做这件事的。本模型是translation-invariant平移不变的，并且支持高效的从下到上和从上到下的概率推断bottom-up and top-down probabilistic inference。CDBN模型的关键核心是概率最大池化probabilistic max-pooling，以概率合理的方式减少了高层的表示。算法表明模型从无标签的物体图像和自然场景学到了有用的高层视觉特征，比如物体的部分object parts。我们把模型用到了几个视觉识别任务中，模型性能优越，确实可以实现对图像的从下到上(bottom-up,从输入图像V层到隐层)和从上到下（top-down，从隐层到输入图像）的推断。

1 介绍

视觉世界可以被从多个level描述，像素强度，边缘，物体的部分，物体等等。pixel intensities, edges, object parts, objects, and beyond.
学习能够同时表示多个层次信息的层次模型，最近因起了很多兴趣。理想情况下，这种深度的表示可以学习到特征检测器（隐层单元）的层次性，于是在处理图像时能进一步结合从上到下和从下到上的推断。（确实够理想的。。。）。比如说，低层可以根据低层特征表示的对象部件object parts支持对象检测object detection，而高层学到的有关图像的信息可以解决低层的模糊性或者推断出隐藏对象部件object parts的位置。

深度结构是由安排在层中的特征检测器单元组成的。低层检测简单的特征，再feed into高层，使得高层in turn检测到更复杂的特征。(听起来有点像玄学···）。已经有很多方法来学习深度深度网络，比如1989年LeCun,Hinton 2006年提出的DBN是一个多层生成模型，每一层都对下面一层的单元之间的统计依赖性进行编码encodes statistical dependencies among the units in the layer below it，它被训练去近似最大化训练数据的似然it is trained to (approximately) maximize the likelihood of its training data.。
DBNs已经被成功地在很多领域被用于学习高层/高级结构，包括手写字体（(Hinton et al., 2006) ，人类移动数据(Taylor et al., 2007)。本文基于这些研究，因为我们对以纯粹无监督形式学习图像的生成模型感兴趣。

DBN不能被扩展到实际尺寸的图像主要有2个原因。一是图像维度太高，所以算法必须扩展得计算上仍便于处理，即使对于大图；二是图像中的物体可以在任何位置出现，所以学到的表示必须是不变的，至少对于输入的局部平移。我们通过引入平移不变性translation invariance来处理这个问题。就像LeCun et al. (1989) and Grosse et al. (2007)一样，我们学习图像所有位置共享的特征检测器，因为能捕捉有用信息的特征检测器在图像上各处都能学到一样类型的有用信息(比如边缘提取算子就可以提取整幅图片的各个地方的边缘)。所以只用很少的特征检测器就可以学到很大的图像。

probabilistic max-pooling：允许高层神经元以一种概率方式覆盖输入的更大区域的技术。

我们的是第一个支持both top-down and bottom-up probabilistic inference 的能适用于大尺寸图像的第一个平移不变的概率生成模型。
我们网络的第一二三层分别学习边缘检测器，物体部分，物体。

2 预备知识

1. 受限玻尔兹曼机

RBM是BM和Marcov random fields 的特例。

两层的，二分图，有一组二元隐层单元（向量h），一组二元/实值的显层单元（向量v）的无向图模型。两层之间的对称连接用一个权重矩阵W表示。

RBM的显层隐层所有单元的各种取值的联合概率是用能量定义的：

Z是配分函数 partition function
显层单元的边缘概率：
由于给定v,h向量中的一个，另一个的分量是条件独立的，所以：
如果显层单元是二元取值的话，能量就这么计算：

$b_j$ are hidden unit biases and $c_i$ are visible unit
biases.
如果显层单元是取实值的话，能量就这么定义：

在这里插入图片描述

注意，当输入层单元取实值时，比如输入一张图片， $\boldsymbol v$ 服从多项式分布（二项分布的推广，每个单元的取值不只两种而是多种，如256种灰度，则整个v层所有单元则近似服从多项式分布），而隐层单元 $\boldsymbol h$ 服从二项分布，若输入也是二元的则也服从二项分布，因为每一个单元的取值服从伯努利分布。

块吉布斯采样时，每个分量激活的概率用sigmoid计算:

如果显层取实值（服从多项式分布），当然隐层仍然是二元的，那么对显层单元采样时用的逻辑函数不再是sigmoid，而是softmax：
在这里插入图片描述
如果显层单元取值确定了，那么隐层单元之间就是条件独立的，反之亦然。所以,二元取值层的单元们，在另一层确定时，是一组独立的二元伯努利随机变量independent Bernoulli random variables。隐层确定时的显层单元们是一组有对角线协方差矩阵（彼此独立）的高斯随机变量Gaussian with diagonal covariance。因此，可以通过交替地alternately采样每一层的单元（在另一层确定时）执行高效的块吉布斯采样，层内单元的采样是并行in parallel的。

原理上，RBM的参数（权重，偏置）可以通过对训练数据的对数似然比进行随机梯度上升实现优化，但是！计算log-likelihood 的精确梯度exact gradient是intractable很难算的。所以，人们通常使用 one typically uses对比散度近似contrastive divergence approximation (Hinton, 2002)来训练RBM的参数，实际中工作的非常好。

2. DBNs

The RBM by itself is limited in what it can represent. Its real power emerges when RBMs are stacked to form a deep belief network, a generative model consisting of many layers.

DBN中每一层都是二元/实值的层，层内单元无连接，相邻两层之间有全的对称的连接。Hinton在2006年提出了高效的训练DBN的算法，即从底层到高层，逐层地训练每一层，把前一层的激活值activations 当作输入。This procedure works well in practice.

3 算法

inference can be done efficiently using convolution。

1. CRBM（the convolutional RBM）

CRBM也由两层组成，V层和H层，即下图的下面两层。
V层是一张 $N_V \times N_V$ 的图片，暂时只考虑二元取值。
隐层有K个group，每个group都是一个 $N_H \times N_H$ 的二元阵列，所以共 $N_H^2K$ 个隐层单元。每个group都和一个 $N_W \times N_W$ 的filter关联。

解读：

CRBM模仿了CNN里的卷积机制，对显层使用K个不同的filter，每个filter学习到的结果是一个group，K个filter共学到K个group（用多个不同的卷积核是想学到尽量多的不一样的对输入的表示），所以隐层的每个group是由相同卷积核权重学来的。在CNN里，多个filter在输入体学到的二维激活map是排列在depth维度的，而这里CRBM中没有depth维度，隐层还是二维的，所以多个group是线性平铺在同一层。
隐层的每个group单元共享一个偏置 $b_k$ ,所有显层单元共享偏置 $c$ .
根据数学容易知道， $N_H=N_V-N_W+1$
一个group中的一个隐层unit连接了 $N_W^2$ 个显层单元，它的输入是这 $N_W^2$ 个显层单元和它所在group的卷积核的相关。