《Learning multiple layers of representation》是Hiton教授2007年发表在Trends. Cogn.Sci.上的一篇文章是深度学习的一篇经典文章,被引率非常高。
关于多层产生式模型:
作者指出:仅仅有一个隐层的产生式模型对于建模到达脑皮层的高维、具有丰富结构的
感知数据是太简单的一个模型了,对于多层网络,对每个数据矢量如果我们能发现某种
方法能推出基于隐变量的后验概率,则学习一个多层产生是模型就相对直接了;如果我
们能从后验分布中获得无偏样本,则学习也相对直接了。在这种情况下,我们简单的调
整参数以便来增加在每一层中的隐变量的样本状态的概率,将产生下一个隐层或可见变
量的样本状态。
在logistic信念网络的例子中,对每个训练样例的学习规则是某种形式的deta规则,
所推理的状态hi,它是后突触单元i的状态,作为目标值;给定在上一层的所有的前突触单
元j的推理状态hj,激活i的概率 h^ 作为预测: Δwij∝hj(hi−hi^))
Δwji 是连接j和i之间的权值的变化。
如果i是可见单元,hi就被训练样例中的i的实际状态来代替。如果训练矢量以相等的概率从
训练集中选择,并且隐状态从给定训练矢量的后验分布中采样,上式的学习规则对产生式模型如果
运行N次将产生确定的N个训练矢量的概率有正期望效果。
关于用于多层产生式模型的近似推理:
作者指出: 除了考虑产生每个训练样例的log概率,还应考虑推理过程的准
确度;如果其他都一样,我们希望近似推理方法尽可能精确;我们会选择一个
模型也许它产生数据的概率不是最高,但是却能有对隐表示的更加准确的推理。
因此很有意义的是当最大化观察数据的log概率时,对每个训练样例使用不精确
推理作为一个惩罚项。这也将导致一个新的目标函数,它更加容易最大化,并
且在产生训练数据的log概率上有一个变化的低边界(lower-bound)。
对于处理复杂产生式模型的推理问题的一个标准方法就是通过优化一个变化
边界来学习。
具有快速准确推理的非线性模型:
介绍受限波尔兹曼机(RBM),并指出它是寻找用于深度、有向产生式模型的
高效学习算法的关键。
像素具有二值的图像能用RBM的隐层来建模像素间的更高阶的相互关系。为了
从训练图像集合中学习一个好的特征检测子的集合,先将像素i和特征检测子j之间的
初始权值置为0;然后使用下式重复更新每个权值wij:
为学习率;<V
h
>
是当特征检测子受训练集中的图像驱动时像素i和特征检测子j
同时出现的频率;<Vh
>
当特征检测子受重构后的图像驱动时像素i和特征检测
子j同时出现的频率。一个相似的学习规则也能用于偏差。
给定一个训练图像,设定每个特征检测子为1的概率为:
P(hj=1)=)其中
为logistic函数,bj是偏差,Vi是像素i的二值状态;一旦为
隐单元选择了二值状态,则通过用如下概率设定每个像素的值为1将产生一个图像的重构:
P(vi=1)=
在此,所学习的权值和偏差直接根据上两式决定了条件分布P(h|v)和P(v|h);非直接的,
权值和偏差定义了联合和边缘概率P(v,h)和P(v),P(h)。
从联合概率中采样是困难的,但是可以使用轮流的Gibbs采样。如果Gibbs采样时间足够
长,网络将达到热平衡。
RBM的两个优点:首先,推理容易;给定可视矢量,在隐矢量上的后验分布因式分解为
每个隐单元独立分布的乘积;因此为了从后验中获得采样,只需简单按照相应的概率打开
每个隐单元;其次,通过堆叠RBM,很容易一次一层的学习深度有向网络。